JP5942559B2

JP5942559B2 - 音声認識装置

Info

Publication number: JP5942559B2
Application number: JP2012093014A
Authority: JP
Inventors: 辻　秀明; 秀明辻; 敏宮國
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2012-04-16
Filing date: 2012-04-16
Publication date: 2016-06-29
Anticipated expiration: 2032-04-16
Also published as: WO2013157174A1; JP2013222033A; US9704479B2; US20150100317A1; CN104246872A; CN104246872B

Description

本発明は、複数の名称データを含むテキスト情報をデバイスから取得し、その取得したテキスト情報に含まれる名称データを辞書変換して辞書データを作成し、その作成した辞書データの辞書登録を行うことで、音声に対する音声認識を行う音声認識装置に関する。

例えば楽曲に関する音声に対する音声認識を行う音声認識装置が広く普及している（特許文献１参照）。

特許第３９１１１７８号公報

音声認識装置は、楽曲に関する音声に対する音声認識を行う場合には、例えばＵＳＢ（Universal Serial Bus）メモリ等のデバイスから楽曲情報を取得する。音声認識装置は、その取得した楽曲情報に含まれる名称（アーティスト名、アルバム名、タイトル名、プレイリスト名等）の名称データを辞書変換して辞書データを作成し、その作成した辞書データの辞書登録を行うことで、その辞書登録を行った辞書データを用いて音声認識を行う。

しかしながら、従来は、楽曲情報に含まれる全ての名称データを取得してから（全ての名称データが揃ってから）辞書データの作成を開始し、即ち、楽曲情報に含まれる全ての名称データを取得するまで辞書データの作成を開始しなかった。そのため、辞書データを作成する対象の楽曲情報の件数が多く、楽曲情報のデータ量が増加すると、辞書データの作成を開始するまでに多くの時間を要する。その結果、デバイスを音声認識装置に接続してから音声認識を行えるまでに多くの時間を要するという問題があった。

又、従来は、前回の接続時に辞書データを作成したデバイスと同じデバイスが再度接続された場合でも、そのデバイスに記憶されている楽曲情報が前回の接続時から少しでも変更（追加又は削除）されていると、その前回の接続時に作成した辞書データを破棄して新たな辞書データを最初から作成していた。そのため、僅かな楽曲情報しか変更されなかった場合でも、その変更された僅かな楽曲情報のデータ量に見合わない期間で音声認識を行えないという問題があった。

本発明は、上記した事情に鑑みてなされたものであり、その目的は、音声認識を行えない期間を極力低減することで、音声認識を行える期間を適切に確保することができ、利便性を高めることができる音声認識装置を提供することにある。

請求項１に記載した発明によれば、複数の名称データを含むテキスト情報をデバイスからテキスト情報取得手段により取得すると、辞書データ作成手段は、テキスト情報取得手段により取得されたテキスト情報に含まれる複数の名称データに基づく辞書データを名称の種別毎に作成する。辞書データ保存制御手段は、辞書データ作成手段により作成された辞書データを辞書データ保存手段に保存させる。辞書登録手段は、辞書データの辞書登録を名称の種別毎に行う。音声認識手段は、辞書登録手段により辞書登録が行われた辞書データを用いて音声認識を行う。バックアップデータ作成手段は、辞書データ保存手段に保存されている辞書データのバックアップデータを作成する。

ここで、辞書データ作成手段は、名称データに基づく辞書データの作成を名称の種別毎に開始し、辞書登録手段は、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータがバックアップデータ作成手段により作成されている状態では、バックアップデータとして作成されている辞書データの辞書登録を名称の種別毎に行っておく。又、辞書登録手段は、辞書データ作成手段により一の名称データに基づく辞書データの作成が名称の種別毎に完了される毎に、その作成が完了された一の名称データに基づく辞書データの辞書登録を名称の種別毎に行う。

これにより、テキスト情報に含まれる全ての名称データを取得してから（全ての名称データが揃ってから）辞書データの作成を開始する従来とは異なり、名称データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した辞書データの辞書登録を行うことで、その辞書登録を行った辞書データを用いて音声認識を行うことができる。一の名称データに基づく辞書データの辞書登録を行っていれば、他の名称データに基づく辞書データの辞書登録を行っていなくても、一の名称データに基づく辞書データを用いて音声認識を行うことができる。

又、前回に辞書データを作成したデバイスと同じデバイスからテキスト情報を取得すると、前回の辞書データを破棄して新たな辞書データを最初から作成する従来とは異なり、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータを作成していれば、バックアップデータとして作成されている辞書データの辞書登録を行っておくことで、その辞書登録を行った辞書データを用いて音声認識を行うことができる。

このように、前回のデバイスと同じであると判定した時点でバックアップデータを作成していれば、そのバックアップデータの辞書データの辞書登録を行うことで、テキスト情報を取得する前に、その辞書登録を行ったバックアップデータの辞書データを用いて音声認識を行うことができる。一方、名称データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した最新の辞書データの辞書登録を行う（最新の辞書データをバックアップデータの辞書データと差し替える）ことで、その辞書登録を行った最新の辞書データを用いて音声認識を順次（段階的に）行うことができる。

本発明の一実施形態を示す機能ブロック図フローチャート辞書データを作成する態様を示す図図３相当図辞書データを作成する時系列と表示画面との対応を示す図表示画面を示す図図６相当図図６相当図図６相当図図６相当図図６相当図図６相当図

以下、本発明を、車両に搭載可能に構成され、楽曲情報（テキスト情報に相当）を記憶可能なＵＳＢ（Universal Serial Bus）メモリとの接続インタフェースを有する音声認識装置に適用した一実施形態について、図面を参照して説明する。ここでいう車両に搭載可能とは、車両に対して固定的に取付けられているいわゆる据付型の態様であっても良いし、車両に対して着脱可能ないわゆる可搬型の態様であっても良いことを意味する。音声認識装置１は、楽曲を再生する処理等を制御するオーディオ制御部２と、辞書データを作成する処理や音声を音声認識する処理等を制御する音声認識制御部３とを有する。オーディオ制御部２及び音声認識制御部３は、両者の間で各種データを転送可能に構成されている。

オーディオ制御部２は、周知のマイクロコンピュータからなるＣＰＵ、ＲＡＭ、ＲＯＭ及びＩ／Ｏバス等を有し、予め記憶している制御プログラムを実行することで、楽曲を再生する処理等を行う。オーディオ制御部２は、その機能により、楽曲情報取得部４（テキスト情報取得手段に相当）を有すると共に、楽曲情報に含まれる複数の名称データを保存可能な楽曲情報データベース５と、名称に対応付けられる言い換え語データを保存可能な言い換え語データベース６とを接続している。楽曲情報取得部４は、ＵＳＢメモリ７（デバイスに相当）が音声認識装置１の本体（図示せず）に対して物理的に接続されることで、ＵＳＢメモリ７に記憶されている楽曲情報を当該ＵＳＢメモリ７から取得し（入力し）、その取得した楽曲情報を楽曲情報データベース５に保存する。

楽曲情報は、例えばｍｐ３ファイル、ｗｍｖファイル等により構成される。楽曲情報に含まれる複数の名称データは、アーティスト名の名称データ、アルバム名の名称データ、タイトル名の名称データ、プレイリスト名の名称データ等である。言い換え語データは、上記したように名称に対応付けられ、例えばアーティスト名とアルバム名との２つの名称に各々対応付けられていれば、アーティスト名に対応する言い換え語データと、アルバム名に対応する言い換え語データとである。尚、本実施形態では、言い換え語データとして、アーティスト名に対応する言い換え語データと、アルバム名に対応する言い換え語データとの２つを挙げているが、タイトル名に対応する言い換え語データや、プレイリスト名に対応する言い換え語データであっても良い。又、言い換え語データベース６が省略されても良く、即ち、名称に言い換え語データが対応付けられなくても良い。

音声認識制御部３は、周知のマイクロコンピュータからなるＣＰＵ、ＲＡＭ、ＲＯＭ及びＩ／Ｏバス等を有し、予め記憶している制御プログラムを実行することで、辞書データを作成する処理や音声を音声認識する処理等を行う。音声認識制御部３は、その機能により、対応付け部８（対応付け手段に相当）と、辞書データ作成部９（辞書データ作成手段に相当）と、辞書データ保存制御部１０（辞書データ保存制御手段に相当）と、辞書登録部１１（辞書登録手段に相当）と、音声認識部１２（音声認識手段に相当）と、バックアップデータ作成部１３（バックアップデータ作成手段に相当）と、表示制御部１４（報知制御手段に相当）とを有すると共に、辞書データを保存可能な辞書データベース１５、１６（辞書データ保存手段に相当）を接続している。

対応付け部８は、楽曲情報データベース５から取得した楽曲情報の名称と言い換え語データベース６から取得した言い換え語データとを対応付ける。辞書データ作成部９は、辞書データを作成する機能としてＧ２Ｐ（Grapheme to Phoneme）変換機能を有し、楽曲情報データベース５から取得した名称データを辞書変換して辞書データを作成する。又、辞書データ作成部９は、言い換え語データベース６から取得した言い換え語データを辞書変換して辞書データを作成する。この場合、辞書データ作成部９は、名称データや言い換え語データに基づく辞書データの作成を名称の種別毎に開始する（詳しくは後述する）。

辞書データ保存制御部１０は、辞書データ作成部９により作成された辞書データを、辞書データベース１５、１６のうち最新保存領域（詳しくは後述する）として設定されている何れかに保存させる。辞書登録部１１は、辞書データベース１５、１６に保存されている辞書データの辞書登録を行う。音声認識部１２は、ユーザが発した音声を集音するマイク１７を接続しており、ユーザが発した音声がマイク１７により集音され、マイク１７から音声を入力すると、その音声を辞書登録部１１により辞書登録が行われた辞書データを用いて音声認識を行う。この場合、音声認識部１２は、その音声認識を行った認識結果を表示制御部１４に出力し、表示制御部１４は、音声認識部１２から認識結果を入力すると、その認識結果を示す表示画面を例えば液晶ディスプレイ装置からなる表示装置１８（報知手段に相当）に表示させる。

辞書データベース１５、１６は、最新保存領域とバックアップ領域とを択一的に切換可能ないわゆる２面構成である。バックアップデータ作成部１３は、辞書データベース１５、１６を最新保存領域とバックアップ領域とを択一的に切換可能であり、辞書データベース１５、１６のうち最新保存領域として設定している何れかに保存されている辞書データをバックアップデータとして作成する。バックアップデータ作成部１３は、バックアップデータを作成すると、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換え、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、バックアップデータの作成を完了するよりも以前にバックアップデータとして保存させていた辞書データ（過去の辞書データ）を破棄する（削除する）。

辞書データベース１５、１６は、上記したように辞書データ作成部９が名称データや言い換え語データの辞書データの作成を名称の種別毎に開始することに対応し、各々名称データ毎の辞書データを保存可能な辞書データベースと、言い換え語データ毎の辞書データを保存可能な辞書データベースとを含んで構成される。即ち、辞書データベース１５は、アーティスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース１５ａ、アルバム名の名称データを辞書変換した辞書データを保存可能な辞書データベース１５ｂ、タイトル名の名称データを辞書変換した辞書データを保存可能な辞書データベース１５ｃ、プレイリスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース１５ｄ、アーティスト名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース１５ｅ、アルバム名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース１５ｆを有する。

同様に、辞書データベース１６は、アーティスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース１６ａ、アルバム名の名称データを辞書変換した辞書データを保存可能な辞書データベース１６ｂ、タイトル名の名称データを辞書変換した辞書データを保存可能な辞書データベース１６ｃ、プレイリスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース１６ｄ、アーティスト名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース１６ｅ、アルバム名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース１６ｆを有する。辞書データベース１５、１６は、保存する対象の辞書データが対応する同士では、その記憶容量、データの書込速度、データの読出速度等の性能に差異がないことが望ましい。

上記した音声認識装置１は、例えば音声認識機能を有するナビゲーション装置等であっても良い。音声認識機能を有するナビゲーション装置であれば、上記した機能に加え、車両の現在位置を特定する機能、記録媒体から地図データを読出す機能、車両の現在位置と地図データに含まれている道路データとを使用して車両の現在位置が存在する道路をマップマッチングする機能、車両の現在位置からユーザが設定した目的地までの経路を探索する機能、探索した経路及び地図データに含まれている道路データ等に基づいて経路案内に必要な地点を算出して経路案内する機能、車両の現在位置の周辺の地図や高速道路の略図や交差点付近の拡大図等を描画する機能等のナビゲーションを行うための周知の機能を有する。その場合、表示装置１８は、車両の現在位置の周辺の地図等を表示する装置等であっても良い。

次に、上記した構成の作用として、音声認識制御部３が本発明に関連して行うデバイス接続判定処理について、図２乃至図１２を参照して説明する。尚、ここでは、名称データに基づく辞書データを作成する優先順位として、アーティスト名、アルバム名、タイトル名、プレイリスト名の順序を設定しており、言い換え語データに基づく辞書データを作成する優先順位として、アーティスト名、アルバム名の順序を設定していることを前提として説明する。

音声認識制御部３は、デバイス接続判定処理を開始すると、ＵＳＢメモリ７が音声認識装置３に接続されたか否かを判定する（ステップＳ１）。音声認識制御部３は、ＵＳＢメモリ７が音声認識装置３に接続されたと判定すると（ステップＳ１：ＹＥＳ）、その接続されたＵＳＢメモリ７が前回の接続時と同じであるか否かを判定する（ステップＳ２）。この場合、音声認識制御部３は、ＵＳＢメモリ７から入力する固有な識別情報（例えば製造番号等）を判定することで、その接続されたＵＳＢメモリ７が前回の接続時と同じであるか否かを判定する。

音声認識制御部３は、その接続されたＵＳＢメモリ７が前回の接続時と同じであると判定すると（ステップＳ２：ＹＥＳ）、最初に、バックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う。具体的には、音声認識制御部３は、名称の種別を名称データの優先順位が最上位の名称（本実施形態ではアーティスト名）に設定し（ステップＳ３）、その設定した名称の名称データに基づく辞書データがバックアップデータとして辞書データベース１５、１６の何れかに保存されているか否かを判定する（ステップＳ４）。

音声認識制御部３は、その設定した名称の名称データに基づく辞書データがバックアップデータとして辞書データベース１５、１６の何れかに保存されていると判定すると（ステップＳ４：ＹＥＳ）、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う（ステップＳ５）。即ち、音声認識制御部３は、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を、辞書登録を行ったバックアップデータの辞書データを用いて行うことが可能となる。

そして、音声認識制御部３は、名称の種別を名称データの優先順位が最下位の名称（本実施形態ではプレイリスト名）に設定しているか否かを判定し（ステップＳ６）、名称の種別を名称データの優先順位が最下位の名称に設定していないと判定すると（ステップＳ５：ＮＯ）、名称の種別をインクリメントし（優先順位が次点の名称を設定し）（ステップＳ７）、上記したステップＳ４乃至Ｓ６を繰返して行う。即ち、音声認識制御部３は、これ以降、名称の種別を、アルバム名、タイトル名、プレイリスト名に順次設定し、各々の名称データに基づく辞書データがバックアップデータとして辞書データベース１５、１６の何れかに保存されていると判定すると、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う。

一方、音声認識制御部３は、名称の種別を名称データの優先順位が最下位の名称に設定していると判定すると（ステップＳ６：ＹＥＳ）、バックアップデータとして保存されている名称データに基づく辞書データの辞書登録を完了する。音声認識制御部３は、このようにバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を完了すると、同様に、バックアップデータとして保存されている言い換え語データに基づく辞書データの辞書登録を行う。

次に、音声認識制御部３は、バックアップデータとして保存されている言い換え語データに基づく辞書データの辞書登録を完了すると、ＵＳＢメモリ７から取得した名称データに基づく辞書データの辞書登録を名称の種別毎に行う。具体的には、音声認識制御部３は、名称の種別を名称データの優先順位が最上位の名称に設定し（ステップＳ８）、名称の種別に設定した名称データが前回の接続時から変更されているか否かを判定する（ステップＳ９）。即ち、音声認識制御部３は、楽曲情報データベース５に保存されている名称データと、辞書データベース１５、１６の何れかにバックアップデータとして保存されている辞書データとを照合することで、名称の種別に設定した名称データが前回の接続時から変更されているか否かを判定する。

音声認識制御部３は、名称の種別に設定した名称データが前回の接続時から変更されていると判定すると（ステップＳ９：ＹＥＳ）、その名称データを楽曲情報データベース５から取得する（ステップＳ１０）。音声認識制御部３は、その取得した名称データを辞書変換して辞書データの作成を開始し（ステップＳ１１）、その名称データに基づく辞書データの作成を完了したか否かを判定する（ステップＳ１２）。音声認識制御部３は、その名称データに基づく辞書データの作成を完了したと判定すると（ステップＳ１２：ＹＥＳ）、その作成した名称データに基づく辞書データを辞書データベース１５、１６のうち最新保存領域を設定している何れかに保存させる（ステップＳ１３）。

音声認識制御部３は、辞書データベース１５、１６のうち最新保存領域を設定している何れかに保存させた辞書データをバックアップデータとして作成する（ステップＳ１４）。このとき、音声認識制御部３は、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換える。又、音声認識制御部３は、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、その時点までにバックアップデータとして保存していた辞書データ（過去の辞書データ）を破棄する（ステップＳ１５）。

その後、音声認識制御部３は、そのバックアップデータとして作成した名称データ、即ち、今回の接続によりＵＳＢメモリ７から取得した名称データに基づく辞書データの辞書登録を行う（ステップＳ１６）。即ち、音声認識制御部３は、今回の接続によりＵＳＢメモリ７から取得した名称データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を最新の辞書データを用いて行うことが可能となる。

そして、音声認識制御部３は、名称の種別を名称データの優先順位が最下位の名称（本実施形態ではプレイリスト名）に設定しているか否かを判定し（ステップＳ１７）、名称の種別を名称データの優先順位が最下位の名称に設定していないと判定すると（ステップＳ１７：ＮＯ）、名称の種別をインクリメントし（優先順位が次点の名称を設定し）（ステップＳ１８）、上記したステップＳ９乃至Ｓ１７を繰返して行う。即ち、音声認識制御部３は、これ以降、名称の種別を、アルバム名、タイトル名、プレイリスト名に順次設定し、各々の名称データが変更されていると判定すると、その名称データを楽曲情報データベース５から取得し、その取得した名称データを辞書変換して辞書データを作成する。

一方、音声認識制御部３は、名称の種別を名称データの優先順位が最下位の名称を設定していると判定すると（ステップＳ１７：ＹＥＳ）、ＵＳＢメモリ７から取得した名称データに基づく辞書データの辞書登録を完了する。

次に、音声認識制御部３は、名称に対応する言い換え語データに基づく辞書データの辞書登録を名称の種別毎に行う。具体的には、音声認識制御部３は、名称の種別を言い換え語データの優先順位が最上位の名称に設定し（ステップＳ１９）、名称の種別に設定した言い換え語データが前回の接続時から変更されているか否かを判定する（ステップＳ２０）。即ち、音声認識制御部３は、言い換え語データベース５に保存されている言い換え語データと、辞書データベース１５、１６の何れかにバックアップデータとして保存されている辞書データとを照合することで、名称の種別に設定した言い換え語データが前回の接続時から変更されているか否かを判定する。

音声認識制御部３は、名称の種別に設定した言い換え語データが前回の接続時から変更されていると判定すると（ステップＳ２０：ＹＥＳ）、その言い換え語データを言い換え語データベース６から取得する（ステップＳ２１）。音声認識制御部３は、その取得した言い換え語データを辞書変換して辞書データの作成を開始し（ステップＳ２２）、その言い換え語データに基づく辞書データの作成を完了したか否かを判定する（ステップＳ２３）。音声認識制御部３は、その言い換え語データに基づく辞書データの作成を完了したと判定すると（ステップＳ２３：ＹＥＳ）、その作成した言い換え語データに基づく辞書データを辞書データベース１５、１６のうち最新保存領域を設定している何れかに保存させる（ステップＳ２４）。

音声認識制御部３は、辞書データベース１５、１６のうち最新保存領域を設定している何れかに保存させた辞書データをバックアップデータとして作成する（ステップＳ２５）。音声認識制御部３は、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換える。又、音声認識制御部３は、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、その時点までにバックアップデータとして保存していた辞書データ（過去の辞書データ）を破棄する（ステップＳ２６）。

その後、音声認識制御部３は、そのバックアップデータとして作成した言い換え語データ、即ち、今回の接続によりＵＳＢメモリ７から取得した名称に対応する言い換え語データに基づく辞書データの辞書登録を行う（ステップＳ２７）。即ち、音声認識制御部３は、今回の接続によりＵＳＢメモリ７から取得した名称に対応する言い換え語データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を最新の辞書データを用いて行うことが可能となる。

そして、音声認識制御部３は、名称の種別を言い換え語データの優先順位が最下位の名称（本実施形態ではアルバム名）に設定しているか否かを判定し（ステップＳ２８）、名称の種別を言い換え語データの優先順位が最下位の名称に設定していないと判定すると（ステップＳ２８：ＮＯ）、名称の種別をインクリメントし（優先順位が次点の名称を設定し）（ステップＳ２９）、上記したステップＳ２０乃至Ｓ２８を繰返して行う。即ち、音声認識制御部３は、これ以降、名称の種別を、アルバム名に設定し、その言い換え語データが変更されていると判定すると、その言い換え語データを言い換え語データベース６から取得し、その取得した言い換え語データを辞書変換して辞書データを作成する。

一方、音声認識制御部３は、名称の種別を言い換え語データの優先順位が最下位の名称を設定していると判定すると（ステップＳ２８：ＹＥＳ）、名称に対応する言い換え語データに基づく辞書データの辞書登録を完了し、デバイス接続判定処理を終了してリターンする。

尚、音声認識制御部３は、接続されたＵＳＢメモリ７が前回の接続時と同じでないと判定すると（ステップＳ２：ＮＯ）、バックアップデータが保存されているか否かを判定することはなく、ステップＳ８に移行する。この場合、音声認識制御部３は、名称の種別に設定した名称データが前回の接続時から変更されていると判定し（ステップＳ９：ＹＥＳ）、その名称データを楽曲情報データベース５から取得し（ステップＳ１０）、これ以降、同様の処理を行う。

又、音声認識制御部３は、名称の種別に設定した名称データが前回の接続時から変更されていないと判定すると（ステップＳ９：ＮＯ）、その名称データを楽曲情報データベース５から取得せずに辞書データの作成を開始することはなく、ステップＳ１７に移行する。又、音声認識制御部３は、名称の種別に設定した言い換え語データが前回の接続時から変更されていないと判定すると（ステップＳ２０：ＮＯ）、その言い換え語データを言い換え語データベース６から取得せずに辞書データの作成を開始することはなく、ステップＳ２８に移行する。

音声認識装置１は、上記した一連の処理を音声認識制御部３が行うことで、前回の接続時に辞書データを作成したＵＳＢメモリ７が接続された際には、図３に示すように、バックアップデータとして保存されている名称データや言い換え語データに基づく辞書データの辞書登録を行うことで、新たな辞書データを作成中の期間に、バックアップデータとして作成されている辞書データを用いて音声認識を可能となる。

又、音声認識装置１は、ＵＳＢメモリ７から取得した名称データや言い換え語データに基づく辞書データを作成する際には、図４に示すように、辞書データの作成を予め設定している優先順位にしたがって名称の種別毎に開始して辞書登録を行う。即ち、名称データについては、アーティスト名、アルバム名、タイトル名、プレイリスト名の順序にしたがって辞書データの作成を開始して辞書登録を行い、その後、言い換え語データについては、アーティスト名、アルバム名の順序にしたがって辞書データの作成を開始して辞書登録を行うことで、作成が完了した名称データや言い換え語データに基づく辞書データを用いて音声認識を可能となる。

ところで、音声認識装置１は、上記したように名称データや言い換え語データに基づく辞書データの作成中の期間では、辞書データの作成の進捗がどの程度であるかをユーザに報知するために図６乃至図１１に示す表示画面を表示装置１８に順次表示させる。具体的に説明すると、音声認識装置１は、ＵＳＢメモリ７が接続された時点でバックアップデータが保存されていない場合には、アーティスト名、アルバム名、タイトル名、プレイリスト名の各々の名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングで、図６乃至図８に示す表示画面を表示装置１８に順次表示させることで、その旨を報知する。

即ち、例えば図６（ａ）に示す表示画面が表示されることで、最新の辞書データの作成が開始されたと共に、音声認識を行えないことをユーザが把握することができる。又、図６（ｂ）に示す表示画面が表示されることで、最新の辞書データの作成中であると共に、しばらくしてから最新の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図６（ｃ）に示す表示画面が表示されることで、アーティスト名の名称データに基づく辞書データの作成が完了されたと共に、最新のアーティスト名の名称データによる音声認識を行える（アーティスト名の名称データに基づく辞書データが作成された）ことをユーザが把握することができる。

一方、音声認識装置１は、ＵＳＢメモリ７が接続された時点でバックアップデータが保存されている場合にも、同様にして、アーティスト名、アルバム名、タイトル名、プレイリスト名の各々の名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングで、図９乃至図１１に示す表示画面を表示装置１８に順次表示させることで、その旨を報知する。

即ち、例えば図９（ａ）に示す表示画面が表示されることで、最新の辞書データの作成が開始されたと共に、最新の辞書データを用いて音声認識を行えないが過去の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図９（ｂ）に示す表示画面が表示されることで、最新の辞書データの作成中であると共に、しばらくしてから最新の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図９（ｃ）に示す表示画面が表示されることで、アーティスト名の名称データに基づく辞書データの作成が完了されたと共に、最新のアーティスト名の名称データによる音声認識を行える（アーティスト名の名称データに基づく辞書データが更新された）ことをユーザが把握することができる。

尚、音声認識装置１は、上記した名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングのみに限らず、アーティスト名に対応する言い換え語データやアルバム名に対応する言い換え語データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングでも、同様にして、辞書データの作成の進捗がどの程度であるかをユーザに報知する表示画面（図示せず）を表示装置１８に順次表示させる。ここでいう作成を完了したタイミングとは、辞書登録を完了したタイミングをも含む意味であり、即ち、音声認識が可能となるタイミングを意味する。又、音声認識装置１は、ＵＳＢメモリ７から削除された名称を示す音声に対する音声認識を行った場合には、図１２に示す表示画面を表示装置１８に表示させ、その旨を報知する。

以上に説明したように本実施形態によれば、音声認識装置１において、名称データや言い換え語データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した最新の辞書データの辞書登録を行うようにした。これにより、その辞書登録を行った最新の辞書データを用いて音声認識を行うことができる。又、前回に辞書データを作成したデバイスと同じデバイスからテキスト情報を取得すると、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータを作成していれば、バックアップデータとして作成されている辞書データの辞書登録を行うようにした。これにより、その辞書登録を行った辞書データを用いて音声認識を行うことができる。

音声認識を行った際に用いた辞書データを履歴として記憶し、名称データや言い換え語データに基づく辞書データの作成を、その履歴に基づいて過去に音声認識を行った際に辞書データとして用いて頻度が多い順序を優先順位として開始するようにすれば、使用される可能性が高い名称データや言い換え語データに基づく辞書データを優先して作成することができる。

辞書データや言い換え語データを作成する対象の件数（データ量）を判定し、名称データや言い換え語データに基づく辞書データの作成を、その件数が少ない順序を優先順位として開始するようにすれば、件数が少ない名称データや言い換え語データに基づく辞書データを優先して作成することができる。

バックアップデータの辞書データの辞書登録を行った後に、名称データが前回の接続時から変更されていないと判定すると、名称データに基づく辞書データの作成を行わないようにし、又、言い換え語データが前回の接続時から変更されていないと判定すると、言い換え語データに基づく辞書データの作成を行わないようにした。これにより、名称データや言い換え語データが前回の接続時から変更されているか否かを判定する前に辞書登録を行ったバックアップデータの辞書データを用いて音声認識を行うことができる。

バックアップデータが作成されている状態では、何れの名称が最新の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であり、何れの名称が過去の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であるかを逐一報知するようにした。これにより、名称データや言い換え語データに基づく辞書データが更新された旨や、最新の名称データや言い換え語データによる音声認識が可能である旨をユーザに逐一把握させることができる。

バックアップデータが作成されていない状態でも、何れの名称が最新の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であるかを逐一報知するようにした。これにより、名称データや言い換え語データに基づく辞書データが作成された旨や、最新の名称データや言い換え語データによる音声認識が可能である旨をユーザに逐一把握させることができる。

本発明は、上記した実施形態にのみ限定されるものではなく、以下のように変形又は拡張することができる。
車両に搭載可能な装置に限らず、例えば自宅等の建物内に設置される装置であっても良く、即ち、車両とは関係ない状況で使用される装置であっても良い。
デバイスとしては、ＵＳＢメモリに限らず、例えば楽曲再生端末等の他の機器であっても良い。デバイスが楽曲再生端末である場合には、音声認識装置と楽曲再生端末とが両者の間でＢｌｕｅｔｏｏｔｈ（登録商標）通信を行うことで、音声認識装置が楽曲再生端末から楽曲情報を取得するようにしても良い。

テキスト情報としては、楽曲情報に限らず、電話帳情報や地名情報等であっても良い。テキスト情報が電話帳情報である場合には、名称データとしての登録名、固定電話番号、携帯電話番号等の各々に基づく辞書データを名称の種別毎に開始するようにしても良い。その場合、言い換え語データとして例えば人物の呼称等を採用しても良い。又、テキスト情報が地名情報である場合には、名称データとしての施設名称、施設電話番号、住所等の各々に基づく辞書データを名称の種別毎に開始するようにしても良い。その場合、言い換え語データとして例えば施設名の略称等を採用しても良い。

図６乃至図１２に示した表示画面を表示させることに代えて、辞書データの作成の進捗がどの程度であるかを示す音声を出力させることで、その旨を報知しても良い。又、表示画面を表示させることと音声を出力させることとを併用しても良い。
最新の辞書データの作成中に過去の辞書データを用いて音声認識を行った場合に、その認識結果を出力する際に、その音声結果が過去の辞書データを用いて音声認識を行ったことによる旨を報知するようにしても良い。
楽曲を再生する機能が音声認識装置とは別の装置に設けられている構成でも良い。

図面中、１は音声認識装置、７はＵＳＢメモリ（デバイス）、８は対応付け部（対応付け手段）、９は辞書データ作成部（辞書データ作成手段）、１０は辞書データ保存制御部（辞書データ保存制御手段）、１１は音声認識部（音声認識手段）、１２は辞書登録部（辞書登録手段）、１３はバックアップデータ作成部（バックアップデータ作成手段）、１４は表示制御部（報知制御手段）、１５、１６は辞書データベース（辞書データ保存手段）、１８は表示装置（報知手段）である。

Claims

複数の名称データを含むテキスト情報をデバイス（７）から取得するテキスト情報取得手段（４）と、
前記テキスト情報取得手段（４）により取得されたテキスト情報に含まれる複数の名称データに基づく辞書データを名称の種別毎に作成する辞書データ作成手段（９）と、
前記辞書データ作成手段（９）により作成された辞書データを辞書データ保存手段（１５、１６）に保存させる辞書データ保存制御手段（１０）と、
辞書データの辞書登録を名称の種別毎に行う辞書登録手段（１１）と、
前記辞書登録手段（１１）により辞書登録が行われた辞書データを用いて音声認識を行う音声認識手段（１２）と、
前記辞書データ保存手段（１５、１６）に保存されている辞書データのバックアップデータを作成するバックアップデータ作成手段（１３）と、を備え、
前記辞書データ作成手段（９）は、名称データに基づく辞書データの作成を名称の種別毎に開始し、
前記辞書登録手段（１１）は、今回のテキスト情報を取得するデバイス（７）と同じデバイス（７）から前回に取得したテキスト情報に対応するバックアップデータが前記バックアップデータ作成手段（１３）により作成されている状態では、バックアップデータとして作成されている辞書データの辞書登録を名称の種別毎に行っておき、前記辞書データ作成手段により一の名称データに基づく辞書データの作成が名称の種別毎に完了される毎に、その作成が完了された一の名称データに基づく辞書データの辞書登録を名称の種別毎に行うことを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
前記辞書データ作成手段（９）は、複数の名称データに基づく辞書データの作成を、前記音声認識手段（１２）が過去に音声認識を行った際に辞書データとして用いて頻度が多い順序にしたがって開始することを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
前記辞書データ作成手段（９）は、複数の名称データに基づく辞書データの作成を、その辞書データを作成する対象の件数が少ない順序にしたがって開始することを特徴とする音声認識装置。
請求項１から３の何れか一項に記載した音声認識装置において、
前記辞書データ作成手段（９）は、一の名称データが前回の接続時から変更されている場合に、一の名称データに基づく辞書データの作成を開始し、一の名称データが前回の接続時から変更されていない場合に、一の名称データに基づく辞書データの作成を行わないことを特徴とする音声認識装置。
請求項１から４の何れか一項に記載した音声認識装置において、
名称と言い換え語データとを対応付ける対応付け手段（８）を備え、
前記辞書データ作成手段（９）は、全ての名称データに基づく辞書データの作成を完了した後に、前記対応付け手段（８）により名称に対応付けられた言い換え語データに基づく辞書データの作成を開始し、
前記辞書登録手段（１１）は、前記辞書データ作成手段（９）により言い換え語データに基づく辞書データの作成が完了されることで、その作成が完了された言い換え語データに基づく辞書データの辞書登録を行うことを特徴とする音声認識装置。
請求項５に記載した音声認識装置において、
前記辞書データ作成手段（９）は、前記対応付け手段（８）により複数の名称に複数の言い換え語データが対応付けられた場合には、その複数の言い換え語データに基づく辞書データの作成を名称の種別毎に開始し、
前記辞書登録手段（１１）は、前記辞書データ作成手段（９）により一の言い換え語データに基づく辞書データの作成が完了される毎に、その作成が完了された一の言い換え語データに基づく辞書データの辞書登録を行うことを特徴とする音声認識装置。
請求項５又は６に記載した音声認識装置において、
前記辞書データ作成手段（９）は、複数の言い換え語データに基づく辞書データの作成を、前記音声認識手段（１２）が過去に音声認識を行った際に辞書データとして用いて頻度が多い順序にしたがって開始することを特徴とする音声認識装置。
請求項５又は６に記載した音声認識装置において、
前記辞書データ作成手段（９）は、複数の言い換え語データに基づく辞書データの作成を、その辞書データを作成する対象の件数が少ない順序にしたがって開始することを特徴とする音声認識装置。
請求項５から８の何れか一項に記載した音声認識装置において、
前記辞書データ作成手段（９）は、一の言い換え語データが前回の接続時から変更されている場合に、一の言い換え語データに基づく辞書データの作成を開始し、一の言い換え語データが前回の接続時から変更されていない場合に、一の言い換え語データに基づく辞書データの作成を行わないことを特徴とする音声認識装置。
請求項１から９の何れか一項に記載した音声認識装置において、
前記バックアップデータ作成手段（１３）によりバックアップデータが作成されている状態であって前記辞書データ作成手段（９）による辞書データの作成中や前記辞書登録手段（１１）による辞書登録中の期間に、前記音声認識手段（１２）がバックアップデータを用いて音声認識可能である旨を報知手段（１８）により報知する報知制御手段（１４）を備えたことを特徴とする音声認識装置。
請求項１０に記載した音声認識装置において、
前記報知制御手段（１４）は、名称データや言い換え語データに基づく辞書データの作成が完了された後に、前記音声認識手段（１２）が当該辞書データを用いて音声認識可能である旨を前記報知手段（１８）により報知することを特徴とする音声認識装置。
請求項１から１１の何れか一項に記載した音声認識装置において、
前記バックアップデータ作成手段（１３）によりバックアップデータが作成されていない状態であって前記辞書データ作成手段（９）による辞書データの作成中の期間に、名称データや言い換え語データに基づく辞書データの作成が完了された後に、前記音声認識手段（１２）が当該辞書データを用いて音声認識可能である旨を報知手段（１８）により報知する報知制御手段（１４）を備えたことを特徴とする音声認識装置。
請求項１１又は１２に記載した音声認識装置において、
前記報知制御手段（１４）は、名称データや言い換え語データに基づく辞書データの作成が完了された直後のタイミングで、前記音声認識手段（１２）が当該辞書データを用いて音声認識可能である旨を報知手段（１８）により報知することを特徴とする音声認識装置。
請求項１から１３の何れか一項に記載した音声認識装置において、
前記テキスト情報取得手段（４）は、少なくともアーティスト名、アルバム名、タイトル名、プレイリスト名の名称データを含む楽曲情報をテキスト情報として取得することを特徴とする音声認識装置。