JP5942559B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5942559B2
JP5942559B2 JP2012093014A JP2012093014A JP5942559B2 JP 5942559 B2 JP5942559 B2 JP 5942559B2 JP 2012093014 A JP2012093014 A JP 2012093014A JP 2012093014 A JP2012093014 A JP 2012093014A JP 5942559 B2 JP5942559 B2 JP 5942559B2
Authority
JP
Japan
Prior art keywords
data
dictionary
name
dictionary data
creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012093014A
Other languages
English (en)
Other versions
JP2013222033A (ja
Inventor
辻 秀明
秀明 辻
敏 宮國
敏 宮國
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2012093014A priority Critical patent/JP5942559B2/ja
Priority to CN201380020070.7A priority patent/CN104246872B/zh
Priority to PCT/JP2013/000458 priority patent/WO2013157174A1/ja
Priority to US14/384,400 priority patent/US9704479B2/en
Publication of JP2013222033A publication Critical patent/JP2013222033A/ja
Application granted granted Critical
Publication of JP5942559B2 publication Critical patent/JP5942559B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Description

本発明は、複数の名称データを含むテキスト情報をデバイスから取得し、その取得したテキスト情報に含まれる名称データを辞書変換して辞書データを作成し、その作成した辞書データの辞書登録を行うことで、音声に対する音声認識を行う音声認識装置に関する。
例えば楽曲に関する音声に対する音声認識を行う音声認識装置が広く普及している(特許文献1参照)。
特許第3911178号公報
音声認識装置は、楽曲に関する音声に対する音声認識を行う場合には、例えばUSB(Universal Serial Bus)メモリ等のデバイスから楽曲情報を取得する。音声認識装置は、その取得した楽曲情報に含まれる名称(アーティスト名、アルバム名、タイトル名、プレイリスト名等)の名称データを辞書変換して辞書データを作成し、その作成した辞書データの辞書登録を行うことで、その辞書登録を行った辞書データを用いて音声認識を行う。
しかしながら、従来は、楽曲情報に含まれる全ての名称データを取得してから(全ての名称データが揃ってから)辞書データの作成を開始し、即ち、楽曲情報に含まれる全ての名称データを取得するまで辞書データの作成を開始しなかった。そのため、辞書データを作成する対象の楽曲情報の件数が多く、楽曲情報のデータ量が増加すると、辞書データの作成を開始するまでに多くの時間を要する。その結果、デバイスを音声認識装置に接続してから音声認識を行えるまでに多くの時間を要するという問題があった。
又、従来は、前回の接続時に辞書データを作成したデバイスと同じデバイスが再度接続された場合でも、そのデバイスに記憶されている楽曲情報が前回の接続時から少しでも変更(追加又は削除)されていると、その前回の接続時に作成した辞書データを破棄して新たな辞書データを最初から作成していた。そのため、僅かな楽曲情報しか変更されなかった場合でも、その変更された僅かな楽曲情報のデータ量に見合わない期間で音声認識を行えないという問題があった。
本発明は、上記した事情に鑑みてなされたものであり、その目的は、音声認識を行えない期間を極力低減することで、音声認識を行える期間を適切に確保することができ、利便性を高めることができる音声認識装置を提供することにある。
請求項1に記載した発明によれば、複数の名称データを含むテキスト情報をデバイスからテキスト情報取得手段により取得すると、辞書データ作成手段は、テキスト情報取得手段により取得されたテキスト情報に含まれる複数の名称データに基づく辞書データを名称の種別毎に作成する。辞書データ保存制御手段は、辞書データ作成手段により作成された辞書データを辞書データ保存手段に保存させる。辞書登録手段は、辞書データの辞書登録を名称の種別毎に行う。音声認識手段は、辞書登録手段により辞書登録が行われた辞書データを用いて音声認識を行う。バックアップデータ作成手段は、辞書データ保存手段に保存されている辞書データのバックアップデータを作成する。
ここで、辞書データ作成手段は、名称データに基づく辞書データの作成を名称の種別毎に開始し、辞書登録手段は、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータがバックアップデータ作成手段により作成されている状態では、バックアップデータとして作成されている辞書データの辞書登録を名称の種別毎に行っておく。又、辞書登録手段は、辞書データ作成手段により一の名称データに基づく辞書データの作成が名称の種別毎に完了される毎に、その作成が完了された一の名称データに基づく辞書データの辞書登録を名称の種別毎に行う。
これにより、テキスト情報に含まれる全ての名称データを取得してから(全ての名称データが揃ってから)辞書データの作成を開始する従来とは異なり、名称データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した辞書データの辞書登録を行うことで、その辞書登録を行った辞書データを用いて音声認識を行うことができる。一の名称データに基づく辞書データの辞書登録を行っていれば、他の名称データに基づく辞書データの辞書登録を行っていなくても、一の名称データに基づく辞書データを用いて音声認識を行うことができる。
又、前回に辞書データを作成したデバイスと同じデバイスからテキスト情報を取得すると、前回の辞書データを破棄して新たな辞書データを最初から作成する従来とは異なり、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータを作成していれば、バックアップデータとして作成されている辞書データの辞書登録を行っておくことで、その辞書登録を行った辞書データを用いて音声認識を行うことができる。
このように、前回のデバイスと同じであると判定した時点でバックアップデータを作成していれば、そのバックアップデータの辞書データの辞書登録を行うことで、テキスト情報を取得する前に、その辞書登録を行ったバックアップデータの辞書データを用いて音声認識を行うことができる。一方、名称データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した最新の辞書データの辞書登録を行う(最新の辞書データをバックアップデータの辞書データと差し替える)ことで、その辞書登録を行った最新の辞書データを用いて音声認識を順次(段階的に)行うことができる。
本発明の一実施形態を示す機能ブロック図 フローチャート 辞書データを作成する態様を示す図 図3相当図 辞書データを作成する時系列と表示画面との対応を示す図 表示画面を示す図 図6相当図 図6相当図 図6相当図 図6相当図 図6相当図 図6相当図
以下、本発明を、車両に搭載可能に構成され、楽曲情報(テキスト情報に相当)を記憶可能なUSB(Universal Serial Bus)メモリとの接続インタフェースを有する音声認識装置に適用した一実施形態について、図面を参照して説明する。ここでいう車両に搭載可能とは、車両に対して固定的に取付けられているいわゆる据付型の態様であっても良いし、車両に対して着脱可能ないわゆる可搬型の態様であっても良いことを意味する。音声認識装置1は、楽曲を再生する処理等を制御するオーディオ制御部2と、辞書データを作成する処理や音声を音声認識する処理等を制御する音声認識制御部3とを有する。オーディオ制御部2及び音声認識制御部3は、両者の間で各種データを転送可能に構成されている。
オーディオ制御部2は、周知のマイクロコンピュータからなるCPU、RAM、ROM及びI/Oバス等を有し、予め記憶している制御プログラムを実行することで、楽曲を再生する処理等を行う。オーディオ制御部2は、その機能により、楽曲情報取得部4(テキスト情報取得手段に相当)を有すると共に、楽曲情報に含まれる複数の名称データを保存可能な楽曲情報データベース5と、名称に対応付けられる言い換え語データを保存可能な言い換え語データベース6とを接続している。楽曲情報取得部4は、USBメモリ7(デバイスに相当)が音声認識装置1の本体(図示せず)に対して物理的に接続されることで、USBメモリ7に記憶されている楽曲情報を当該USBメモリ7から取得し(入力し)、その取得した楽曲情報を楽曲情報データベース5に保存する。
楽曲情報は、例えばmp3ファイル、wmvファイル等により構成される。楽曲情報に含まれる複数の名称データは、アーティスト名の名称データ、アルバム名の名称データ、タイトル名の名称データ、プレイリスト名の名称データ等である。言い換え語データは、上記したように名称に対応付けられ、例えばアーティスト名とアルバム名との2つの名称に各々対応付けられていれば、アーティスト名に対応する言い換え語データと、アルバム名に対応する言い換え語データとである。尚、本実施形態では、言い換え語データとして、アーティスト名に対応する言い換え語データと、アルバム名に対応する言い換え語データとの2つを挙げているが、タイトル名に対応する言い換え語データや、プレイリスト名に対応する言い換え語データであっても良い。又、言い換え語データベース6が省略されても良く、即ち、名称に言い換え語データが対応付けられなくても良い。
音声認識制御部3は、周知のマイクロコンピュータからなるCPU、RAM、ROM及びI/Oバス等を有し、予め記憶している制御プログラムを実行することで、辞書データを作成する処理や音声を音声認識する処理等を行う。音声認識制御部3は、その機能により、対応付け部8(対応付け手段に相当)と、辞書データ作成部9(辞書データ作成手段に相当)と、辞書データ保存制御部10(辞書データ保存制御手段に相当)と、辞書登録部11(辞書登録手段に相当)と、音声認識部12(音声認識手段に相当)と、バックアップデータ作成部13(バックアップデータ作成手段に相当)と、表示制御部14(報知制御手段に相当)とを有すると共に、辞書データを保存可能な辞書データベース15、16(辞書データ保存手段に相当)を接続している。
対応付け部8は、楽曲情報データベース5から取得した楽曲情報の名称と言い換え語データベース6から取得した言い換え語データとを対応付ける。辞書データ作成部9は、辞書データを作成する機能としてG2P(Grapheme to Phoneme)変換機能を有し、楽曲情報データベース5から取得した名称データを辞書変換して辞書データを作成する。又、辞書データ作成部9は、言い換え語データベース6から取得した言い換え語データを辞書変換して辞書データを作成する。この場合、辞書データ作成部9は、名称データや言い換え語データに基づく辞書データの作成を名称の種別毎に開始する(詳しくは後述する)。
辞書データ保存制御部10は、辞書データ作成部9により作成された辞書データを、辞書データベース15、16のうち最新保存領域(詳しくは後述する)として設定されている何れかに保存させる。辞書登録部11は、辞書データベース15、16に保存されている辞書データの辞書登録を行う。音声認識部12は、ユーザが発した音声を集音するマイク17を接続しており、ユーザが発した音声がマイク17により集音され、マイク17から音声を入力すると、その音声を辞書登録部11により辞書登録が行われた辞書データを用いて音声認識を行う。この場合、音声認識部12は、その音声認識を行った認識結果を表示制御部14に出力し、表示制御部14は、音声認識部12から認識結果を入力すると、その認識結果を示す表示画面を例えば液晶ディスプレイ装置からなる表示装置18(報知手段に相当)に表示させる。
辞書データベース15、16は、最新保存領域とバックアップ領域とを択一的に切換可能ないわゆる2面構成である。バックアップデータ作成部13は、辞書データベース15、16を最新保存領域とバックアップ領域とを択一的に切換可能であり、辞書データベース15、16のうち最新保存領域として設定している何れかに保存されている辞書データをバックアップデータとして作成する。バックアップデータ作成部13は、バックアップデータを作成すると、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換え、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、バックアップデータの作成を完了するよりも以前にバックアップデータとして保存させていた辞書データ(過去の辞書データ)を破棄する(削除する)。
辞書データベース15、16は、上記したように辞書データ作成部9が名称データや言い換え語データの辞書データの作成を名称の種別毎に開始することに対応し、各々名称データ毎の辞書データを保存可能な辞書データベースと、言い換え語データ毎の辞書データを保存可能な辞書データベースとを含んで構成される。即ち、辞書データベース15は、アーティスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース15a、アルバム名の名称データを辞書変換した辞書データを保存可能な辞書データベース15b、タイトル名の名称データを辞書変換した辞書データを保存可能な辞書データベース15c、プレイリスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース15d、アーティスト名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース15e、アルバム名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース15fを有する。
同様に、辞書データベース16は、アーティスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース16a、アルバム名の名称データを辞書変換した辞書データを保存可能な辞書データベース16b、タイトル名の名称データを辞書変換した辞書データを保存可能な辞書データベース16c、プレイリスト名の名称データを辞書変換した辞書データを保存可能な辞書データベース16d、アーティスト名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース16e、アルバム名に対応する言い換え語データを辞書変換した辞書データを保存可能な辞書データベース16fを有する。辞書データベース15、16は、保存する対象の辞書データが対応する同士では、その記憶容量、データの書込速度、データの読出速度等の性能に差異がないことが望ましい。
上記した音声認識装置1は、例えば音声認識機能を有するナビゲーション装置等であっても良い。音声認識機能を有するナビゲーション装置であれば、上記した機能に加え、車両の現在位置を特定する機能、記録媒体から地図データを読出す機能、車両の現在位置と地図データに含まれている道路データとを使用して車両の現在位置が存在する道路をマップマッチングする機能、車両の現在位置からユーザが設定した目的地までの経路を探索する機能、探索した経路及び地図データに含まれている道路データ等に基づいて経路案内に必要な地点を算出して経路案内する機能、車両の現在位置の周辺の地図や高速道路の略図や交差点付近の拡大図等を描画する機能等のナビゲーションを行うための周知の機能を有する。その場合、表示装置18は、車両の現在位置の周辺の地図等を表示する装置等であっても良い。
次に、上記した構成の作用として、音声認識制御部3が本発明に関連して行うデバイス接続判定処理について、図2乃至図12を参照して説明する。尚、ここでは、名称データに基づく辞書データを作成する優先順位として、アーティスト名、アルバム名、タイトル名、プレイリスト名の順序を設定しており、言い換え語データに基づく辞書データを作成する優先順位として、アーティスト名、アルバム名の順序を設定していることを前提として説明する。
音声認識制御部3は、デバイス接続判定処理を開始すると、USBメモリ7が音声認識装置3に接続されたか否かを判定する(ステップS1)。音声認識制御部3は、USBメモリ7が音声認識装置3に接続されたと判定すると(ステップS1:YES)、その接続されたUSBメモリ7が前回の接続時と同じであるか否かを判定する(ステップS2)。この場合、音声認識制御部3は、USBメモリ7から入力する固有な識別情報(例えば製造番号等)を判定することで、その接続されたUSBメモリ7が前回の接続時と同じであるか否かを判定する。
音声認識制御部3は、その接続されたUSBメモリ7が前回の接続時と同じであると判定すると(ステップS2:YES)、最初に、バックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う。具体的には、音声認識制御部3は、名称の種別を名称データの優先順位が最上位の名称(本実施形態ではアーティスト名)に設定し(ステップS3)、その設定した名称の名称データに基づく辞書データがバックアップデータとして辞書データベース15、16の何れかに保存されているか否かを判定する(ステップS4)。
音声認識制御部3は、その設定した名称の名称データに基づく辞書データがバックアップデータとして辞書データベース15、16の何れかに保存されていると判定すると(ステップS4:YES)、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う(ステップS5)。即ち、音声認識制御部3は、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を、辞書登録を行ったバックアップデータの辞書データを用いて行うことが可能となる。
そして、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称(本実施形態ではプレイリスト名)に設定しているか否かを判定し(ステップS6)、名称の種別を名称データの優先順位が最下位の名称に設定していないと判定すると(ステップS5:NO)、名称の種別をインクリメントし(優先順位が次点の名称を設定し)(ステップS7)、上記したステップS4乃至S6を繰返して行う。即ち、音声認識制御部3は、これ以降、名称の種別を、アルバム名、タイトル名、プレイリスト名に順次設定し、各々の名称データに基づく辞書データがバックアップデータとして辞書データベース15、16の何れかに保存されていると判定すると、そのバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を行う。
一方、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称に設定していると判定すると(ステップS6:YES)、バックアップデータとして保存されている名称データに基づく辞書データの辞書登録を完了する。音声認識制御部3は、このようにバックアップデータとして保存されている名称データに基づく辞書データの辞書登録を完了すると、同様に、バックアップデータとして保存されている言い換え語データに基づく辞書データの辞書登録を行う。
次に、音声認識制御部3は、バックアップデータとして保存されている言い換え語データに基づく辞書データの辞書登録を完了すると、USBメモリ7から取得した名称データに基づく辞書データの辞書登録を名称の種別毎に行う。具体的には、音声認識制御部3は、名称の種別を名称データの優先順位が最上位の名称に設定し(ステップS8)、名称の種別に設定した名称データが前回の接続時から変更されているか否かを判定する(ステップS9)。即ち、音声認識制御部3は、楽曲情報データベース5に保存されている名称データと、辞書データベース15、16の何れかにバックアップデータとして保存されている辞書データとを照合することで、名称の種別に設定した名称データが前回の接続時から変更されているか否かを判定する。
音声認識制御部3は、名称の種別に設定した名称データが前回の接続時から変更されていると判定すると(ステップS9:YES)、その名称データを楽曲情報データベース5から取得する(ステップS10)。音声認識制御部3は、その取得した名称データを辞書変換して辞書データの作成を開始し(ステップS11)、その名称データに基づく辞書データの作成を完了したか否かを判定する(ステップS12)。音声認識制御部3は、その名称データに基づく辞書データの作成を完了したと判定すると(ステップS12:YES)、その作成した名称データに基づく辞書データを辞書データベース15、16のうち最新保存領域を設定している何れかに保存させる(ステップS13)。
音声認識制御部3は、辞書データベース15、16のうち最新保存領域を設定している何れかに保存させた辞書データをバックアップデータとして作成する(ステップS14)。このとき、音声認識制御部3は、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換える。又、音声認識制御部3は、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、その時点までにバックアップデータとして保存していた辞書データ(過去の辞書データ)を破棄する(ステップS15)。
その後、音声認識制御部3は、そのバックアップデータとして作成した名称データ、即ち、今回の接続によりUSBメモリ7から取得した名称データに基づく辞書データの辞書登録を行う(ステップS16)。即ち、音声認識制御部3は、今回の接続によりUSBメモリ7から取得した名称データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を最新の辞書データを用いて行うことが可能となる。
そして、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称(本実施形態ではプレイリスト名)に設定しているか否かを判定し(ステップS17)、名称の種別を名称データの優先順位が最下位の名称に設定していないと判定すると(ステップS17:NO)、名称の種別をインクリメントし(優先順位が次点の名称を設定し)(ステップS18)、上記したステップS9乃至S17を繰返して行う。即ち、音声認識制御部3は、これ以降、名称の種別を、アルバム名、タイトル名、プレイリスト名に順次設定し、各々の名称データが変更されていると判定すると、その名称データを楽曲情報データベース5から取得し、その取得した名称データを辞書変換して辞書データを作成する。
一方、音声認識制御部3は、名称の種別を名称データの優先順位が最下位の名称を設定していると判定すると(ステップS17:YES)、USBメモリ7から取得した名称データに基づく辞書データの辞書登録を完了する。
次に、音声認識制御部3は、名称に対応する言い換え語データに基づく辞書データの辞書登録を名称の種別毎に行う。具体的には、音声認識制御部3は、名称の種別を言い換え語データの優先順位が最上位の名称に設定し(ステップS19)、名称の種別に設定した言い換え語データが前回の接続時から変更されているか否かを判定する(ステップS20)。即ち、音声認識制御部3は、言い換え語データベース5に保存されている言い換え語データと、辞書データベース15、16の何れかにバックアップデータとして保存されている辞書データとを照合することで、名称の種別に設定した言い換え語データが前回の接続時から変更されているか否かを判定する。
音声認識制御部3は、名称の種別に設定した言い換え語データが前回の接続時から変更されていると判定すると(ステップS20:YES)、その言い換え語データを言い換え語データベース6から取得する(ステップS21)。音声認識制御部3は、その取得した言い換え語データを辞書変換して辞書データの作成を開始し(ステップS22)、その言い換え語データに基づく辞書データの作成を完了したか否かを判定する(ステップS23)。音声認識制御部3は、その言い換え語データに基づく辞書データの作成を完了したと判定すると(ステップS23:YES)、その作成した言い換え語データに基づく辞書データを辞書データベース15、16のうち最新保存領域を設定している何れかに保存させる(ステップS24)。
音声認識制御部3は、辞書データベース15、16のうち最新保存領域を設定している何れかに保存させた辞書データをバックアップデータとして作成する(ステップS25)。音声認識制御部3は、そのバックアップデータの作成を完了したことを契機として、最新保存領域を設定している一方を最新保存領域からバックアップ領域に切換える。又、音声認識制御部3は、バックアップ領域を設定している他方をバックアップ領域から最新保存領域に切換え、その時点までにバックアップデータとして保存していた辞書データ(過去の辞書データ)を破棄する(ステップS26)。
その後、音声認識制御部3は、そのバックアップデータとして作成した言い換え語データ、即ち、今回の接続によりUSBメモリ7から取得した名称に対応する言い換え語データに基づく辞書データの辞書登録を行う(ステップS27)。即ち、音声認識制御部3は、今回の接続によりUSBメモリ7から取得した名称に対応する言い換え語データに基づく辞書データの辞書登録を行うことで、これ以降、入力した音声に対する音声認識を最新の辞書データを用いて行うことが可能となる。
そして、音声認識制御部3は、名称の種別を言い換え語データの優先順位が最下位の名称(本実施形態ではアルバム名)に設定しているか否かを判定し(ステップS28)、名称の種別を言い換え語データの優先順位が最下位の名称に設定していないと判定すると(ステップS28:NO)、名称の種別をインクリメントし(優先順位が次点の名称を設定し)(ステップS29)、上記したステップS20乃至S28を繰返して行う。即ち、音声認識制御部3は、これ以降、名称の種別を、アルバム名に設定し、その言い換え語データが変更されていると判定すると、その言い換え語データを言い換え語データベース6から取得し、その取得した言い換え語データを辞書変換して辞書データを作成する。
一方、音声認識制御部3は、名称の種別を言い換え語データの優先順位が最下位の名称を設定していると判定すると(ステップS28:YES)、名称に対応する言い換え語データに基づく辞書データの辞書登録を完了し、デバイス接続判定処理を終了してリターンする。
尚、音声認識制御部3は、接続されたUSBメモリ7が前回の接続時と同じでないと判定すると(ステップS2:NO)、バックアップデータが保存されているか否かを判定することはなく、ステップS8に移行する。この場合、音声認識制御部3は、名称の種別に設定した名称データが前回の接続時から変更されていると判定し(ステップS9:YES)、その名称データを楽曲情報データベース5から取得し(ステップS10)、これ以降、同様の処理を行う。
又、音声認識制御部3は、名称の種別に設定した名称データが前回の接続時から変更されていないと判定すると(ステップS9:NO)、その名称データを楽曲情報データベース5から取得せずに辞書データの作成を開始することはなく、ステップS17に移行する。又、音声認識制御部3は、名称の種別に設定した言い換え語データが前回の接続時から変更されていないと判定すると(ステップS20:NO)、その言い換え語データを言い換え語データベース6から取得せずに辞書データの作成を開始することはなく、ステップS28に移行する。
音声認識装置1は、上記した一連の処理を音声認識制御部3が行うことで、前回の接続時に辞書データを作成したUSBメモリ7が接続された際には、図3に示すように、バックアップデータとして保存されている名称データや言い換え語データに基づく辞書データの辞書登録を行うことで、新たな辞書データを作成中の期間に、バックアップデータとして作成されている辞書データを用いて音声認識を可能となる。
又、音声認識装置1は、USBメモリ7から取得した名称データや言い換え語データに基づく辞書データを作成する際には、図4に示すように、辞書データの作成を予め設定している優先順位にしたがって名称の種別毎に開始して辞書登録を行う。即ち、名称データについては、アーティスト名、アルバム名、タイトル名、プレイリスト名の順序にしたがって辞書データの作成を開始して辞書登録を行い、その後、言い換え語データについては、アーティスト名、アルバム名の順序にしたがって辞書データの作成を開始して辞書登録を行うことで、作成が完了した名称データや言い換え語データに基づく辞書データを用いて音声認識を可能となる。
ところで、音声認識装置1は、上記したように名称データや言い換え語データに基づく辞書データの作成中の期間では、辞書データの作成の進捗がどの程度であるかをユーザに報知するために図6乃至図11に示す表示画面を表示装置18に順次表示させる。具体的に説明すると、音声認識装置1は、USBメモリ7が接続された時点でバックアップデータが保存されていない場合には、アーティスト名、アルバム名、タイトル名、プレイリスト名の各々の名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングで、図6乃至図8に示す表示画面を表示装置18に順次表示させることで、その旨を報知する。
即ち、例えば図6(a)に示す表示画面が表示されることで、最新の辞書データの作成が開始されたと共に、音声認識を行えないことをユーザが把握することができる。又、図6(b)に示す表示画面が表示されることで、最新の辞書データの作成中であると共に、しばらくしてから最新の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図6(c)に示す表示画面が表示されることで、アーティスト名の名称データに基づく辞書データの作成が完了されたと共に、最新のアーティスト名の名称データによる音声認識を行える(アーティスト名の名称データに基づく辞書データが作成された)ことをユーザが把握することができる。
一方、音声認識装置1は、USBメモリ7が接続された時点でバックアップデータが保存されている場合にも、同様にして、アーティスト名、アルバム名、タイトル名、プレイリスト名の各々の名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングで、図9乃至図11に示す表示画面を表示装置18に順次表示させることで、その旨を報知する。
即ち、例えば図9(a)に示す表示画面が表示されることで、最新の辞書データの作成が開始されたと共に、最新の辞書データを用いて音声認識を行えないが過去の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図9(b)に示す表示画面が表示されることで、最新の辞書データの作成中であると共に、しばらくしてから最新の辞書データを用いて音声認識を行えることをユーザが把握することができる。又、図9(c)に示す表示画面が表示されることで、アーティスト名の名称データに基づく辞書データの作成が完了されたと共に、最新のアーティスト名の名称データによる音声認識を行える(アーティスト名の名称データに基づく辞書データが更新された)ことをユーザが把握することができる。
尚、音声認識装置1は、上記した名称データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングのみに限らず、アーティスト名に対応する言い換え語データやアルバム名に対応する言い換え語データに基づく辞書データの作成を開始するタイミング、作成中のタイミング、作成を完了したタイミングでも、同様にして、辞書データの作成の進捗がどの程度であるかをユーザに報知する表示画面(図示せず)を表示装置18に順次表示させる。ここでいう作成を完了したタイミングとは、辞書登録を完了したタイミングをも含む意味であり、即ち、音声認識が可能となるタイミングを意味する。又、音声認識装置1は、USBメモリ7から削除された名称を示す音声に対する音声認識を行った場合には、図12に示す表示画面を表示装置18に表示させ、その旨を報知する。
以上に説明したように本実施形態によれば、音声認識装置1において、名称データや言い換え語データに基づく辞書データの作成を名称の種別毎に開始し、その作成を完了した最新の辞書データの辞書登録を行うようにした。これにより、その辞書登録を行った最新の辞書データを用いて音声認識を行うことができる。又、前回に辞書データを作成したデバイスと同じデバイスからテキスト情報を取得すると、今回のテキスト情報を取得するデバイスと同じデバイスから前回に取得したテキスト情報に対応するバックアップデータを作成していれば、バックアップデータとして作成されている辞書データの辞書登録を行うようにした。これにより、その辞書登録を行った辞書データを用いて音声認識を行うことができる。
音声認識を行った際に用いた辞書データを履歴として記憶し、名称データや言い換え語データに基づく辞書データの作成を、その履歴に基づいて過去に音声認識を行った際に辞書データとして用いて頻度が多い順序を優先順位として開始するようにすれば、使用される可能性が高い名称データや言い換え語データに基づく辞書データを優先して作成することができる。
辞書データや言い換え語データを作成する対象の件数(データ量)を判定し、名称データや言い換え語データに基づく辞書データの作成を、その件数が少ない順序を優先順位として開始するようにすれば、件数が少ない名称データや言い換え語データに基づく辞書データを優先して作成することができる。
バックアップデータの辞書データの辞書登録を行った後に、名称データが前回の接続時から変更されていないと判定すると、名称データに基づく辞書データの作成を行わないようにし、又、言い換え語データが前回の接続時から変更されていないと判定すると、言い換え語データに基づく辞書データの作成を行わないようにした。これにより、名称データや言い換え語データが前回の接続時から変更されているか否かを判定する前に辞書登録を行ったバックアップデータの辞書データを用いて音声認識を行うことができる。
バックアップデータが作成されている状態では、何れの名称が最新の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であり、何れの名称が過去の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であるかを逐一報知するようにした。これにより、名称データや言い換え語データに基づく辞書データが更新された旨や、最新の名称データや言い換え語データによる音声認識が可能である旨をユーザに逐一把握させることができる。
バックアップデータが作成されていない状態でも、何れの名称が最新の名称データや言い換え語データに基づく辞書データを用いた音声認識が可能であるかを逐一報知するようにした。これにより、名称データや言い換え語データに基づく辞書データが作成された旨や、最新の名称データや言い換え語データによる音声認識が可能である旨をユーザに逐一把握させることができる。
本発明は、上記した実施形態にのみ限定されるものではなく、以下のように変形又は拡張することができる。
車両に搭載可能な装置に限らず、例えば自宅等の建物内に設置される装置であっても良く、即ち、車両とは関係ない状況で使用される装置であっても良い。
デバイスとしては、USBメモリに限らず、例えば楽曲再生端末等の他の機器であっても良い。デバイスが楽曲再生端末である場合には、音声認識装置と楽曲再生端末とが両者の間でBluetooth(登録商標)通信を行うことで、音声認識装置が楽曲再生端末から楽曲情報を取得するようにしても良い。
テキスト情報としては、楽曲情報に限らず、電話帳情報や地名情報等であっても良い。テキスト情報が電話帳情報である場合には、名称データとしての登録名、固定電話番号、携帯電話番号等の各々に基づく辞書データを名称の種別毎に開始するようにしても良い。その場合、言い換え語データとして例えば人物の呼称等を採用しても良い。又、テキスト情報が地名情報である場合には、名称データとしての施設名称、施設電話番号、住所等の各々に基づく辞書データを名称の種別毎に開始するようにしても良い。その場合、言い換え語データとして例えば施設名の略称等を採用しても良い。
図6乃至図12に示した表示画面を表示させることに代えて、辞書データの作成の進捗がどの程度であるかを示す音声を出力させることで、その旨を報知しても良い。又、表示画面を表示させることと音声を出力させることとを併用しても良い。
最新の辞書データの作成中に過去の辞書データを用いて音声認識を行った場合に、その認識結果を出力する際に、その音声結果が過去の辞書データを用いて音声認識を行ったことによる旨を報知するようにしても良い。
楽曲を再生する機能が音声認識装置とは別の装置に設けられている構成でも良い。
図面中、1は音声認識装置、7はUSBメモリ(デバイス)、8は対応付け部(対応付け手段)、9は辞書データ作成部(辞書データ作成手段)、10は辞書データ保存制御部(辞書データ保存制御手段)、11は音声認識部(音声認識手段)、12は辞書登録部(辞書登録手段)、13はバックアップデータ作成部(バックアップデータ作成手段)、14は表示制御部(報知制御手段)、15、16は辞書データベース(辞書データ保存手段)、18は表示装置(報知手段)である。

Claims (14)

  1. 複数の名称データを含むテキスト情報をデバイス(7)から取得するテキスト情報取得手段(4)と、
    前記テキスト情報取得手段(4)により取得されたテキスト情報に含まれる複数の名称データに基づく辞書データを名称の種別毎に作成する辞書データ作成手段(9)と、
    前記辞書データ作成手段(9)により作成された辞書データを辞書データ保存手段(15、16)に保存させる辞書データ保存制御手段(10)と、
    辞書データの辞書登録を名称の種別毎に行う辞書登録手段(11)と、
    前記辞書登録手段(11)により辞書登録が行われた辞書データを用いて音声認識を行う音声認識手段(12)と、
    前記辞書データ保存手段(15、16)に保存されている辞書データのバックアップデータを作成するバックアップデータ作成手段(13)と、を備え、
    前記辞書データ作成手段(9)は、名称データに基づく辞書データの作成を名称の種別毎に開始し、
    前記辞書登録手段(11)は、今回のテキスト情報を取得するデバイス(7)と同じデバイス(7)から前回に取得したテキスト情報に対応するバックアップデータが前記バックアップデータ作成手段(13)により作成されている状態では、バックアップデータとして作成されている辞書データの辞書登録を名称の種別毎に行っておき、前記辞書データ作成手段により一の名称データに基づく辞書データの作成が名称の種別毎に完了される毎に、その作成が完了された一の名称データに基づく辞書データの辞書登録を名称の種別毎に行うことを特徴とする音声認識装置。
  2. 請求項1に記載した音声認識装置において、
    前記辞書データ作成手段(9)は、複数の名称データに基づく辞書データの作成を、前記音声認識手段(12)が過去に音声認識を行った際に辞書データとして用いて頻度が多い順序にしたがって開始することを特徴とする音声認識装置。
  3. 請求項1に記載した音声認識装置において、
    前記辞書データ作成手段(9)は、複数の名称データに基づく辞書データの作成を、その辞書データを作成する対象の件数が少ない順序にしたがって開始することを特徴とする音声認識装置。
  4. 請求項1から3の何れか一項に記載した音声認識装置において、
    前記辞書データ作成手段(9)は、一の名称データが前回の接続時から変更されている場合に、一の名称データに基づく辞書データの作成を開始し、一の名称データが前回の接続時から変更されていない場合に、一の名称データに基づく辞書データの作成を行わないことを特徴とする音声認識装置。
  5. 請求項1から4の何れか一項に記載した音声認識装置において、
    名称と言い換え語データとを対応付ける対応付け手段(8)を備え、
    前記辞書データ作成手段(9)は、全ての名称データに基づく辞書データの作成を完了した後に、前記対応付け手段(8)により名称に対応付けられた言い換え語データに基づく辞書データの作成を開始し、
    前記辞書登録手段(11)は、前記辞書データ作成手段(9)により言い換え語データに基づく辞書データの作成が完了されることで、その作成が完了された言い換え語データに基づく辞書データの辞書登録を行うことを特徴とする音声認識装置。
  6. 請求項5に記載した音声認識装置において、
    前記辞書データ作成手段(9)は、前記対応付け手段(8)により複数の名称に複数の言い換え語データが対応付けられた場合には、その複数の言い換え語データに基づく辞書データの作成を名称の種別毎に開始し、
    前記辞書登録手段(11)は、前記辞書データ作成手段(9)により一の言い換え語データに基づく辞書データの作成が完了される毎に、その作成が完了された一の言い換え語データに基づく辞書データの辞書登録を行うことを特徴とする音声認識装置。
  7. 請求項5又は6に記載した音声認識装置において、
    前記辞書データ作成手段(9)は、複数の言い換え語データに基づく辞書データの作成を、前記音声認識手段(12)が過去に音声認識を行った際に辞書データとして用いて頻度が多い順序にしたがって開始することを特徴とする音声認識装置。
  8. 請求項5又は6に記載した音声認識装置において、
    前記辞書データ作成手段(9)は、複数の言い換え語データに基づく辞書データの作成を、その辞書データを作成する対象の件数が少ない順序にしたがって開始することを特徴とする音声認識装置。
  9. 請求項5から8の何れか一項に記載した音声認識装置において、
    前記辞書データ作成手段(9)は、一の言い換え語データが前回の接続時から変更されている場合に、一の言い換え語データに基づく辞書データの作成を開始し、一の言い換え語データが前回の接続時から変更されていない場合に、一の言い換え語データに基づく辞書データの作成を行わないことを特徴とする音声認識装置。
  10. 請求項1から9の何れか一項に記載した音声認識装置において、
    前記バックアップデータ作成手段(13)によりバックアップデータが作成されている状態であって前記辞書データ作成手段(9)による辞書データの作成中や前記辞書登録手段(11)による辞書登録中の期間に、前記音声認識手段(12)がバックアップデータを用いて音声認識可能である旨を報知手段(18)により報知する報知制御手段(14)を備えたことを特徴とする音声認識装置。
  11. 請求項10に記載した音声認識装置において、
    前記報知制御手段(14)は、名称データや言い換え語データに基づく辞書データの作成が完了された後に、前記音声認識手段(12)が当該辞書データを用いて音声認識可能である旨を前記報知手段(18)により報知することを特徴とする音声認識装置。
  12. 請求項1から11の何れか一項に記載した音声認識装置において、
    前記バックアップデータ作成手段(13)によりバックアップデータが作成されていない状態であって前記辞書データ作成手段(9)による辞書データの作成中の期間に、名称データや言い換え語データに基づく辞書データの作成が完了された後に、前記音声認識手段(12)が当該辞書データを用いて音声認識可能である旨を報知手段(18)により報知する報知制御手段(14)を備えたことを特徴とする音声認識装置。
  13. 請求項11又は12に記載した音声認識装置において、
    前記報知制御手段(14)は、名称データや言い換え語データに基づく辞書データの作成が完了された直後のタイミングで、前記音声認識手段(12)が当該辞書データを用いて音声認識可能である旨を報知手段(18)により報知することを特徴とする音声認識装置。
  14. 請求項1から13の何れか一項に記載した音声認識装置において、
    前記テキスト情報取得手段(4)は、少なくともアーティスト名、アルバム名、タイトル名、プレイリスト名の名称データを含む楽曲情報をテキスト情報として取得することを特徴とする音声認識装置。
JP2012093014A 2012-04-16 2012-04-16 音声認識装置 Expired - Fee Related JP5942559B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012093014A JP5942559B2 (ja) 2012-04-16 2012-04-16 音声認識装置
CN201380020070.7A CN104246872B (zh) 2012-04-16 2013-01-29 声音识别装置
PCT/JP2013/000458 WO2013157174A1 (ja) 2012-04-16 2013-01-29 音声認識装置
US14/384,400 US9704479B2 (en) 2012-04-16 2013-01-29 Speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012093014A JP5942559B2 (ja) 2012-04-16 2012-04-16 音声認識装置

Publications (2)

Publication Number Publication Date
JP2013222033A JP2013222033A (ja) 2013-10-28
JP5942559B2 true JP5942559B2 (ja) 2016-06-29

Family

ID=49383149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012093014A Expired - Fee Related JP5942559B2 (ja) 2012-04-16 2012-04-16 音声認識装置

Country Status (4)

Country Link
US (1) US9704479B2 (ja)
JP (1) JP5942559B2 (ja)
CN (1) CN104246872B (ja)
WO (1) WO2013157174A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014050981A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム
WO2015178715A1 (en) * 2014-05-23 2015-11-26 Samsung Electronics Co., Ltd. System and method of providing voice-message call service
US11036926B2 (en) 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304523B1 (en) 1999-01-05 2001-10-16 Openglobe, Inc. Playback device having text display and communication with remote database of titles
US20020048224A1 (en) 1999-01-05 2002-04-25 Dygert Timothy W. Playback device having text display and communication with remote database of titles
JP3911178B2 (ja) 2002-03-19 2007-05-09 シャープ株式会社 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7437296B2 (en) 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
JPWO2007138875A1 (ja) * 2006-05-31 2009-10-01 日本電気株式会社 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP4867622B2 (ja) * 2006-11-29 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
CN101558443B (zh) * 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
US8639214B1 (en) * 2007-10-26 2014-01-28 Iwao Fujisaki Communication device
JPWO2010018796A1 (ja) * 2008-08-11 2012-01-26 旭化成株式会社 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法
JP5465926B2 (ja) 2009-05-22 2014-04-09 アルパイン株式会社 音声認識辞書作成装置及び音声認識辞書作成方法
JP2011039202A (ja) * 2009-08-07 2011-02-24 Aisin Aw Co Ltd 車載情報処理装置
JP5693834B2 (ja) * 2009-09-17 2015-04-01 アルパイン株式会社 音声認識装置及び音声認識方法
JP2011095498A (ja) * 2009-10-29 2011-05-12 Aisin Aw Co Ltd 車載情報処理装置及び車載情報処理方法
JP2011150169A (ja) * 2010-01-22 2011-08-04 Alpine Electronics Inc 音声認識装置
DE112010005168B4 (de) * 2010-01-22 2018-12-13 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
US20110238412A1 (en) * 2010-03-26 2011-09-29 Antoine Ezzat Method for Constructing Pronunciation Dictionaries
US20120239399A1 (en) * 2010-03-30 2012-09-20 Michihiro Yamazaki Voice recognition device

Also Published As

Publication number Publication date
WO2013157174A1 (ja) 2013-10-24
JP2013222033A (ja) 2013-10-28
US9704479B2 (en) 2017-07-11
US20150100317A1 (en) 2015-04-09
CN104246872A (zh) 2014-12-24
CN104246872B (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
US9105267B2 (en) Speech recognition apparatus
US9269351B2 (en) Voice recognition device
JP2010224236A (ja) 音声出力装置
JP5942559B2 (ja) 音声認識装置
JP5275349B2 (ja) 情報処理装置、情報作成装置、情報処理方法、情報作成方法、情報処理プログラム、情報作成プログラム、および記録媒体
JP6896335B2 (ja) 音声認識装置および音声認識方法
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP5927969B2 (ja) 音声認識システム
JP2007199979A (ja) 地図表示装置およびナビゲーション装置
JP2000122685A (ja) ナビゲーションシステム
JP5446540B2 (ja) 情報検索装置、制御方法及びプログラム
JP5500647B2 (ja) 動的音声認識辞書の生成方法及びその生成装置
JP2015129672A (ja) 施設検索装置および方法
JP5522679B2 (ja) 検索装置
JPH11325946A (ja) 車載用ナビゲーション装置
JP5533576B2 (ja) 情報作成装置、情報作成方法及びプログラム
JP2005031260A (ja) 情報処理方法及び装置
WO2018100705A1 (ja) 音声認識装置及び音声認識方法
JP2017125941A (ja) 情報処理装置及び情報処理方法並びに前記情報処理装置での処理をコンピュータにて実行させるプログラム
EP3062494B1 (en) Electronic device and telephone number matching determination method
JP5895878B2 (ja) 入力支援システム、方法およびプログラム
JP2018156278A (ja) 情報表示装置
JP2020183985A (ja) 音声認識システム
JP2005265477A (ja) 車載ナビゲーションシステム
JP2019124559A (ja) 表示制御装置、表示制御方法及び表示制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160509

R151 Written notification of patent or utility model registration

Ref document number: 5942559

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees