JP6457154B1

JP6457154B1 - 音声認識補正システム、方法及びプログラム

Info

Publication number: JP6457154B1
Application number: JP2018516873A
Authority: JP
Inventors: 俊二菅谷
Original assignee: Optim Corp
Current assignee: Optim Corp
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2019-01-23
Anticipated expiration: 2037-03-31
Also published as: WO2018179426A1; JPWO2018179426A1

Abstract

【課題】周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供する。【解決手段】本発明の音声認識補正システム１において、制御部１０は、位置情報取得モジュール１１を実行し、ユーザが特定の時点以前に訪れた場所の位置情報を取得する。また、制御部１０は、音声認識モジュール１３を実行し、ユーザが発声した音声を音声認識する。そして、制御部１０は、補正モジュール１４を実行し、位置情報取得モジュール１１の実行によって取得された位置情報に基づいて、音声認識モジュール１３の実行によって音声認識された内容を補正する。【選択図】図１

Description

本発明は、音声認識補正システム、方法及びプログラムに関する。

近年、ユーザの音声を認識する音声認識システムが知られている。音声認識システムについては、音声認識の認識精度向上が課題であり、例えば、音声認識の対象となる利用者を撮影した画像をカメラから取得し、前記画像を用いて前記利用者を特定する顔認識手段と、予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定する口の動き判定手段と、前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知する指向方向決定手段と、前記音声を取得し音声認識を行う音声認識手段とを備えることが提案されている（例えば、特許文献１参照）。

特開２０１３−１７２４１１号公報

しかしながら、音声認識の精度向上については、なおいっそうの改良の余地がある。例えば、移動中のユーザが音声を認識させようとする場合、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合がある。この場合において、ユーザが認識させようとした音声の内容を補正し、当該音声を正しく認識することの可能なシステムの提供が求められている。

本発明は、このような要望に鑑みてなされたものであり、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

第１の特徴に係る発明は、
ユーザが特定の時点以前に訪れた場所の位置情報を取得する位置情報取得手段と、
前記ユーザが発声した音声を音声認識する音声認識手段と、
前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する補正手段と、
を備える音声認識補正システムを提供する。

第１の特徴に係る発明によれば、位置情報取得手段は、ユーザが特定の時点以前に訪れた場所の位置情報を取得し、補正手段は、位置情報取得手段によって取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、音声認識の内容を補正する。これにより、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが特定の時点以前に訪れた場所の位置情報から、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供することができる。

第２の特徴に係る発明は、第１の特徴に係る発明であって、
前記位置情報取得手段は、前記ユーザの携帯端末から、当該ユーザが特定の時点以前に訪れた場所の位置情報を取得する、音声認識補正システムを提供する。

第２の特徴に係る発明によれば、ユーザ自身が所有する携帯端末から、ユーザが特定の時点以前に訪れた場所の位置情報を取得し、その位置情報から、ユーザが認識させようとした音声の内容を推測する。そのため、当該音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

第３の特徴に係る発明は、第１又は第２の特徴に係る発明であって、
前記補正手段は、前記取得された位置情報に関するＷｅｂコンテンツを参照して、前記音声認識された内容を補正する、音声認識補正システムを提供する。

第３の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関するＷｅｂコンテンツを参照して、音声認識された内容を補正する。そのため、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

第４の特徴に係る発明は、第１から第３のいずれかの特徴に係る発明であって、
前記補正手段は、前記取得された位置情報における天気情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。

第４の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関する天気情報を特定して、音声認識された内容を補正する。そのため、ユーザが特定の時点以前に訪れた場所の天気に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

第５の特徴に係る発明は、第１から第４のいずれかの特徴に係る発明であって、
前記補正手段は、前記取得された位置情報における時間情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。

第５の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関する時間情報を特定して、音声認識された内容を補正する。そのため、ユーザが所定の場所に訪れた時刻に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

第６の特徴に係る発明は、第１から第５のいずれかの特徴に係る発明であって、
前記ユーザの携帯端末から、当該ユーザの状態を示す状態情報を取得する状態情報取得手段をさらに備え、
前記補正手段は、前記取得された位置情報における状態情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。

第６の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報における状態情報を特定して、音声認識された内容を補正する。そのため、ユーザが訪れた場所でのユーザの状態に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

第７の特徴に係る発明は、第１から第６のいずれかの特徴に係る発明であって、
前記ユーザが決済した決済情報を取得する決済情報取得手段をさらに備え、
前記補正手段は、前記取得された位置情報における決済情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。

第７の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報における決済情報を特定して、音声認識された内容を補正する。そのため、ユーザが訪れた場所での決済状況と繋がる事項に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

第８の特徴に係る発明は、第１から第７のいずれかの特徴に係る発明であって、
複数の携帯端末と、これら複数の携帯端末とネットワークで接続されている管理コンピュータとを含んで構成され、
前記複数の携帯端末は、前記位置情報取得手段と、前記ユーザが発声した音声に関する音声情報を取得する音声情報取得手段とを有し、
前記管理コンピュータは、前記複数の携帯端末によって取得された前記位置情報及び前記音声情報を受信可能に構成され、
前記管理コンピュータは、前記位置情報を送信した携帯端末と、前記音声情報を送信した携帯端末とが同一の携帯端末であるかを判別する判別手段と、前記補正手段とを有し、
前記補正手段は、前記判別手段により同一の携帯端末であると判別された場合に、前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する、音声認識補正システム、を提供する。

第８の特徴に係る発明によれば、音声認識補正システムが、複数の携帯端末と、これら複数の携帯端末とネットワークで接続されているネットワーク型のシステムである場合における誤認識を抑えることができる。これにより、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

第９の特徴に係る発明は、第１から第８のいずれかの特徴に係る発明であって、
前記補正された内容を復唱する復唱手段と、
前記復唱された結果、問題がない場合に前記補正された内容を記録する記録手段とをさらに備える、音声認識システムを提供する。

移動中のユーザが音声を認識させようとする場合、ユーザは、補正手段によって補正された内容を画面表示から確認することが難しい。第９の特徴に係る発明によれば、補正された内容が復唱されるため、ユーザが移動中であっても、画面表示に注視することなく、補正手段によって補正された内容を確認することができる。

また、記録手段は、復唱された結果、問題がない場合に補正された内容を記録する。そのため、第９の特徴に係る発明によれば、補正された内容に誤りがある場合に、補正された内容が記録されることを防ぐことができ、結果として、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。

本発明によれば、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが特定の時点以前に訪れた場所の位置情報から、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供することができる。

図１は、本発明の第１実施形態における音声認識補正システム１のハードウェア構成とソフトウェア機能を示すブロック図である。図２は、本実施形態における音声認識補正方法を示すフローチャートである。図３は、本実施形態における位置情報データベース３１の一例である。図４は、本実施形態における滞在時間計測領域３２の一例である。図５は、集音内容を説明するための一例である。図６は、本実施形態における音声データベース３４の一例である。図７は、本実施形態における辞書データベース３５の一例である。図８は、本実施形態における分類データベース３６の一例である。図９は、本実施形態における音声認識補正システム１での表示内容及び音声出力内容の一例である。図１０は、本実施形態における上書き保存後の音声データベース３４の一例である。図１１は、本発明の第１実施形態における音声認識補正システム１のハードウェア構成とソフトウェア機能を示すブロック図である。

以下、本発明を実施するための形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

１．第１の実施形態
まず、本発明の第１の実施形態について説明する。

音声認識補正システムは、スマートフォン、スマートグラス、スマートウォッチ等の携帯端末に一体的に設けられたスタンドアローン型のシステムであってもよいし、携帯端末と当該携帯端末とネットワークを介して接続される管理コンピュータとを備えるネットワーク型のシステムであってもよい。

第１の実施形態では、音声認識補正システムがスタンドアローン型のシステムであるものとして説明する。それに対し、後述する第２の実施形態では、音声認識補正システムがネットワーク型のシステムであるものとして説明する。

＜音声認識補正システム１の構成＞
図１は、本実施形態における音声認識補正システム１のハードウェア構成とソフトウェア機能を説明するためのブロック図である。

音声認識補正システム１は、データを制御する制御部１０と、他の機器と通信を行う通信部２０と、データを記憶する記憶部３０と、ユーザの操作を受け付ける入力部４０と、ユーザの声を集音する集音部５０と、音声認識補正システム１が存在する位置を検出する位置検出部６０と、一定の場所での滞在時間を計測するタイマ７０と、制御部１０で制御したデータや画像を出力表示する画像表示部８０とを備える。

制御部１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備える。

通信部２０は、他の機器と通信可能にするためのデバイス、例えば、ＩＥＥＥ８０２．１１に準拠したＷｉ−Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）対応デバイスを備える。

制御部１０は、所定のプログラムを読み込み、必要に応じて通信部２０と協働することで、位置情報位置情報取得モジュール１１と、状態情報等取得モジュール１２と、音声認識モジュール１３と、補正モジュール１４と、復唱モジュール１５と、記録モジュール１６とを実現する。

記憶部３０は、データやファイルを記憶する装置であって、ハードディスクや半導体メモリ、記録媒体、メモリカード等による、データのストレージ部を備える。記憶部３０は、後に説明する履歴情報データベース３１、地図データベース３２、滞在時間計測領域３３、音声データベース３４、辞書データベース３５、及び分類データベース３６を記憶する。また、記憶部３０は、画像表示部８０に表示させる画像のデータを記憶する。

入力部４０の種類は、特に限定されない。入力部４０として、例えば、キーボード、マウス、タッチパネル等が挙げられる。

集音部５０の種類は、特に限定されない。集音部５０として、例えば、マイク等が挙げられる。

位置検出部６０は、音声認識補正システム１が位置する緯度及び経度を検出できる装置であれば、特に限定されない。位置検出部６０として、例えば、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）が挙げられる。

タイマ７０の種類は、一定の場所での滞在時間を計測可能であれば、特に限定されない。

画像表示部８０の種類は、特に限定されない。画像表示部８０として、例えば、モニタ、タッチパネル等が挙げられる。

＜音声認識補正システム１を用いた音声認識補正方法を示すフローチャート］
図２は、音声認識補正システム１を用いた音声認識補正方法を示すフローチャートである。上述した各ハードウェアと、ソフトウェアモジュールが実行する処理について説明する。

〔ステップＳ１０：位置情報の取得〕
最初に、音声認識補正システム１の制御部１０は、位置情報取得モジュール１１を実行し、ユーザが特定の時点以前に訪れた場所の位置情報を取得する（ステップＳ１０）。

音声認識補正システム１の位置検出部６０は、音声認識補正システム１が位置する緯度及び経度を随時検出する。そして、制御部１０は、地図データベース３２を参照し、位置検出部６０が検出した緯度及び経度に相当する場所を検索する。そして、制御部１０は、検索した場所を履歴情報データベース３１に記録する。

図３は、履歴情報データベース３１の一例を示す。履歴情報データベース３１には、位置検出部６０が位置情報を検出したときの日付及び時刻と、位置検出部６０が検出した位置に相当する場所との情報が識別番号と関連づけて記録されている。

日付は、音声内容補正システム１に内蔵されているカレンダー機能（図示せず）を参照することで、記録可能である。時刻は、音声内容補正システム１に内蔵されている時計機能（図示せず）を参照することで、記録可能である。

制御部１０は、履歴情報データベース３１を参照することで、ユーザが特定の時点以前に訪れた場所の位置情報を取得できる。

〔ステップＳ１１：状態情報等の取得〕
図２に戻る。続いて、制御部１０は、状態情報等取得モジュール１２を実行し、ユーザの状態を示す状態情報や、現在の天気の情報、クレジットカードや電子決済に関する決済情報等を取得する（ステップＳ１１）。

音声認識補正システム１のタイマ７０は、音声認識補正システム１が一定の場所にとどまっている時間を計測し、滞在時間計測領域３２に記録する。

図４は、滞在時間計測領域３２の一例である。滞在時間計測領域３２には、音声認識補正システム１の滞在場所、滞在開始日時、滞在終了日時の情報が記録される。

音声認識補正システム１が一定の場所に所定時間以上とどまっていることが、滞在時間計測領域３２に記録されると、制御部１０は、ユーザが一定の場所に滞在しているとして、履歴情報データベース３１における「状態」の項目を「滞在中」に更新する。

また、制御部１０は、通信部２０を介して外部の天気予報提供Ｗｅｂサイトにアクセスする。そして、制御部１０は、当該天気予報提供Ｗｅｂサイトから、位置検出部６０が検出した緯度及び経度に相当する地点における天気の情報を読み出す。そして、制御部１０は、読み出した天気の情報を履歴情報データベース３１に記録する。

また、携帯端末が有するクレジットカード機能や電子決済機能が利用されると、制御部１０は、クレジットカードや電子決済に関する決済情報を履歴情報データベース３１に記録する。

図３に示す履歴情報データベース３１は、位置検出部６０が位置情報を検出したときの日付、時刻及び場所の情報だけでなく、ユーザの状態を示す状態情報や、現在の天気の情報、クレジットカードや電子決済に関する決済情報等についても、識別番号と関連づけて記録されている。

制御部１０は、履歴情報データベース３１を参照することで、これら状態情報、天気情報、決済情報等を取得できる。

〔ステップＳ１２：音声の集音〕
図２に戻る。続いて、制御部１０は、集音部５０がユーザの音声を集音したか否かを判別する（ステップＳ１２）。

集音部５０がユーザの音声を集音すると、制御部１０は、集音部５０で集音した音声をＡ／Ｄ変換し、Ａ／Ｄ変換された情報を記憶部３０の所定領域にセットする。

例えば、図５に示すように、ユーザは、「今日は、銀座に出かけた。晴れて良かった。Ａデパートに寄ってブランドＸの服を購入した。」と音声を発生したとする。この場合、音声認識補正システム１の集音部５０は、その音声を集音する。そして、制御部１０は、集音部５０で集音した音声をＡ／Ｄ変換し、Ａ／Ｄ変換された情報を記憶部３０の所定領域にセットする。

ステップＳ１２での判別がＹＥＳのときは、処理をステップＳ１３に移す。それに対し、ステップＳ１２での判別がＮＯのときは、ステップＳ１０の処理に戻る。

〔ステップＳ１３：音声認識〕
図２に戻る。続いて、制御部１０は、音声認識モジュール１３を実行し、集音部５０が集音した音声を音声認識する（ステップＳ１３）。

制御部１０は、図６に示す音声データベース３４を参照し、Ａ／Ｄ変換された情報が有する音波の波形から、集音部５０で集音した音声を文字起こしする。この処理により、Ａ／Ｄ変換された情報は、「キョウハ？？？ニデカケタ／ハレテヨカッタ／？？？ニヨッテブランド？？？ノフクヲコウニュウシタ」とされる。なお、「？？？」は、周囲の雑音等から、音声内容補正システム１の集音部５０が音声を集音しきれなかった箇所である。

続いて、制御部１０は、図７に示す辞書データベース３５を参照し、文字起こしされた情報を言語に置き換え、文章化する。この処理により、Ａ／Ｄ変換された情報は、「今日は、？？？に出かけた。晴れて良かった。？？？に寄って？？？の服を購入した。」とされる。文章化された情報は、Ａ／Ｄ変換された情報と関連づけて、記憶部３０の所定領域にセットされる。

〔ステップＳ１４：音声認識した内容の補正〕
図２に戻る。続いて、制御部１０は、補正モジュール１４を実行し、ステップＳ１０の処理で取得した位置情報、ステップＳ１１の処理で取得した状態情報等に基づいて、ステップＳ１３の処理で音声認識した内容を補正する（ステップＳ１４）。

制御部１０は、分類データベース３６を参照する。図８は、分類データベース３６の一例である。分類データベース３６には、文章化された内容に含まれる単語等と、履歴情報データベース３１にリストアップされている項目との関係が予め記録されている。本実施形態では、履歴情報データベース３１（図３）には、「日付」、「時刻」、「場所」、「状態」、「天気」、「決済情報」等の項目がリストアップされている。分類データベース３６には、これら項目に関連する単語群が記録されている。

音声認識された内容である「今日は、？？？に出かけた。晴れて良かった。？？？に寄って？？？の服を購入した。」との情報について説明する。制御部１０は、分類データベース３６を参照し、この情報に含まれる「今日」を項目「日付」と関連づけ、「出かけた」を項目「場所」と関連づける。また、「良かった」を項目「天気」と関連づけ、「寄って」を項目「場所」と関連づける。また、「服」を項目「決済情報」と関連づけ、「購入」を項目「決済情報」と関連づける。

続いて、制御部１０は、履歴情報データベース３１を参照する。まず、制御部１０は、履歴情報データベース３１の項目「日付」を参照し、音声認識された内容に含まれる「今日」に関する項目を抽出する。なお、今日がいつであるかは、記憶部３０に記憶されているカレンダー（図示せず）を読み出すことで把握できる。本実施形態では、今日が２０１７年３月２０日であるものとして説明する。

続いて、制御部１０は、履歴情報データベース３１の項目「場所」を参照し、音声認識された内容に含まれる「出かけた」、「寄って」に関する項目を抽出する。

音声認識された内容から、「出かけた」場所、「寄って」た場所を直ちに特定できないものの、制御部１０は、履歴情報データベース３１に記録された内容から、「出かけた」場所、「寄って」た場所は、「有楽町」、「有楽町駅」、「Ａデパート」、「デパート」、「銀座」、「Ａデパート銀座店」のいずれかであると推測できる。

そして、制御部１０は、音声データベース３４（図６）を参照し、「有楽町」、「有楽町駅」、「Ａデパート」、「デパート」、「銀座」、「Ａデパート銀座店」に相当する音声データ（波形データ）を合成する。続いて、制御部１０は、合成した音声データと、ステップＳ１３の処理でＡ／Ｄ変換された音声データとを比較し、「？？？に出かけた。」、「？？？に寄って」の「？？？」に相当する音声データに最も近い音声を抽出する。

これにより、制御部１０は、「？？？に出かけた。」の「？？？」は、「銀座」であり、「？？？に寄って」の「？？？」は、「Ａデパート」であると推測できる。

同様に、制御部１０は、履歴情報データベース３１の項目「決済情報」を参照し、音声認識された内容に含まれる「服」、「購入」に関する項目を抽出する。

音声認識された内容から、「服」を「購入」した内容を直ちに特定できないものの、制御部１０は、履歴情報データベース３１に記録された内容から、「服」を「購入」した内容は、「ブランドＸ」、「シャツ」、「７５６０円」、「クレジットカード」、「カード決済」のいずれかであると推測できる。

そして、制御部１０は、音声データベース３４（図６）を参照し、「ブランドＸ」、「シャツ」、「７５６０円」、「クレジットカード」、「カード決済」に相当する音声データ（波形データ）を合成する。続いて、制御部１０は、合成した音声データと、ステップＳ１３の処理でＡ／Ｄ変換された音声データとを比較し、「？？？の服を購入した。」の「？？？」に相当する音声データに最も近い音声を抽出する。

これにより、制御部１０は、「？？？の服を購入した。」の「？？？」は、「ブランドＸ」であると推測できる。

上記から、ステップＳ１３の処理で音声認識した内容である「今日は、？？？に出かけた。晴れて良かった。？？？に寄って？？？の服を購入した。」との情報は、「今日は、銀座に出かけた。晴れて良かった。Ａデパートに寄ってブランドＸの服を購入した。」との情報に補正できる。

本実施形態に記載の発明によれば、制御部１０は、ステップＳ１０の処理において、ユーザが特定の時点以前に訪れた場所の位置情報を取得し、ステップＳ１４の処理において、ステップＳ１０の処理で取得した位置情報に基づいて、音声認識の内容を補正する。これにより、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが特定の時点以前に訪れた場所の位置情報から、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能な音声内容補正システム１を提供することができる。

また、ステップＳ１４の処理において、制御部１０は、ステップＳ１１の処理で取得した位置情報における天気情報、時間情報、ユーザの状態を示す状態情報、ユーザが決済した決済情報を特定して、ステップＳ１３の処理で音声認識された内容を補正することを可能にする。本実施形態に記載の発明によると、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関する各種の情報を特定して、音声認識された内容を補正することを可能にする。そのため、音声を認識する精度をよりいっそう高めることの可能な音声内容補正システム１を提供することができる。

また、ステップＳ１４の処理において、制御部１０は、ステップＳ１０の処理で取得した位置情報に関するＷｅｂコンテンツを参照して、ステップＳ１３の処理で音声認識した内容を補正することが好ましい。そうすることで、音声を認識する精度をよりいっそう高めることの可能な音声内容補正システム１を提供することができる。

〔ステップＳ１５：補正内容の復唱〕
図２に戻る。続いて、制御部１０は、復唱モジュール１５を実行し、ステップＳ１４の処理で補正された内容を復唱する（ステップＳ１５）。

図９は、そのときの音声内容補正システム１の状態の一例を示す。

画像表示部８０には、「今日は、銀座に出かけた。晴れて良かった。Ａデパートに寄ってブランドＸの服を購入した。」との文章が表示され、その下に、「これで間違いありませんか？」との文章が表示されるとともに、「ＯＫ」とのアイコンが表示されている。そして、音声内容補正システム１のスピーカ（図示せず）からは、「今日は、銀座に出かけた。晴れて良かった。Ａデパートに寄ってブランドＸの服を購入した。」との音声が復唱される。そして、「これで間違いありませんか？間違えなければ、「はい」と答えるか、「ＯＫ」を押してください。」との音声が出力される。

移動中のユーザが音声を認識させようとする場合、ユーザは、ステップＳ１４の処理で補正された内容を画面表示から確認することが難しい。本実施形態に記載の発明によれば、補正された内容が、画像表示部８０での画面表示だけでなく、スピーカからの音声として復唱されるため、ユーザが移動中であっても、画面表示に注視することなく、ステップＳ１４の処理で補正された内容を確認することができる。

〔ステップＳ１６：補正内容の記録〕
図２に戻る。続いて、制御部１０は、記録モジュール１６を実行し、ステップＳ１５の処理で復唱された結果、問題がない場合に、ステップＳ１４の処理で補正された内容を記録する（ステップＳ１６）。

ステップＳ１３の処理でＡ／Ｄ変換された音声データのうち、ステップＳ１３の処理だけではその内容が不明であった箇所の内容は、「銀座」、「Ａデパート」、「ブランドＸ」であることが判明した。制御部１０は、ステップＳ１３の処理でＡ／Ｄ変換された音声データから、「銀座」、「Ａ」、「デパート」、「Ａデパート」、「ブランド」、「Ｘ」、「ブランドＸ」に相当する箇所の波形を抽出し、もともと記憶されていた音声データベース３４に上書き保存する。

図１０は、上書き保存された後の音声データベース３４の一例を示す。音声データベース３４には、新たに、「銀座」、「Ａ」、「デパート」、「Ａデパート」、「ブランド」、「Ｘ」、「ブランドＸ」の音声データが追加されている。

本実施形態に記載の発明によると、ステップＳ１５の処理で復唱された結果、問題がない場合に、補正された内容を記録する。そのため、ステップＳ１４の処理で補正された内容に誤りがある場合に、誤った内容が記録されることを防ぐことができ、結果として、音声を認識する精度をよりいっそう高めることの可能な音声認識補正システム１を提供することができる。

２．第２の実施形態
次に、本発明の第２の実施形態について説明する。

第１の実施形態では、音声認識補正システムがスタンドアローン型のシステムであるものとして説明した。それに対し、第２の実施形態は、音声認識補正システムがネットワーク型のシステムである点で異なり、その余は同じである。

＜音声認識補正システム１００＞
図１１は、本実施形態における音声認識補正システム１００のハードウェア構成とソフトウェア機能を説明するためのブロック図である。

音声認識補正システム１００は、複数の携帯端末２００と、これら複数の携帯端末２００とネットワークで接続されている管理コンピュータ３００とを含んで構成される。

〔携帯端末２００〕
携帯端末２００は、それぞれ、制御部２１０と、通信部２２０と、記憶部２３０と、入力部２４０と、集音部２５０と、位置検出部２６０と、画像表示部２８０とを備える。

制御部２１０は、位置情報取得モジュール２１１と、状態情報等取得モジュール２１２と、復唱モジュール２１５とを有する。

集音部２５０は、ユーザが発声した音声に関する音声情報を取得する音声情報取得手段として機能する。

なお、通信部２２０、記憶部２３０、入力部２４０、位置検出部２６０、及び画像表示部２８０の機能は、第１の実施形態における通信部２０、記憶部３０、入力部４０、位置検出部６０、及び画像表示部８０の機能と同じである。

また、位置情報取得モジュール２１１、状態情報等取得モジュール２１２、及び復唱モジュール２１５の機能は、第１の実施形態における位置情報取得モジュール１１、状態情報等取得モジュール１２、及び復唱モジュール１５の機能と同じである。

〔管理コンピュータ３００〕
管理コンピュータ３００は、制御部３１０と、通信部３２０と、記憶部３３０と、入力部３４０と、画像表示部３８０とを備える。

制御部３１０は、音声認識モジュール３１３と、補正モジュール３１４と、記録モジュール３１６とを有する。

通信部３２０は、複数の携帯端末２００によって取得された位置情報及び音声情報を受信可能に構成される。

記憶部３３０には、履歴情報データベース３３１、地図データベース３３２、滞在時間計測領域３３３、音声データベース３３４、辞書データベース３３５、及び分類データベース３３６が記憶されている。

ところで、制御部３１０は、複数の携帯端末２００のうち、位置情報を送信した携帯端末と、音声情報を送信した携帯端末とが同一の携帯端末であるかを判別する。そして、制御部３１０の補正モジュール３１４は、位置情報を送信した携帯端末と、音声情報を送信した携帯端末とが同一の携帯端末である場合に、当該携帯端末が取得した位置情報に基づいて、当該携帯端末の集音部２５０が集音した音声について音声認識された内容を補正する。

これにより、音声認識補正システム１が、複数の携帯端末２００と、これら複数の携帯端末２００とネットワークで接続されている管理コンピュータ３００とを備えるネットワーク型のシステムである場合における誤認識を抑えることができる。したがって、音声を認識する精度をよりいっそう高めることの可能なネットワーク型の音声認識補正システム１を提供することができる。

なお、入力部３４０及び画像表示部３８０の機能は、第１の実施形態における入力部４０及び画像表示部８０の機能と同じである。

また、音声認識モジュール３１３、補正モジュール３１４、及び記録モジュール３１６の機能は、基本的に、第１の実施形態における音声認識モジュール１３、補正モジュール１４、及び記録モジュール１６の機能と同じである。

また、履歴情報データベース３３１、地図データベース３３２、滞在時間計測領域３３３、音声データベース３３４、辞書データベース３３５、及び分類データベース３３６の構成は、第１の実施形態における履歴情報データベース３１、地図データベース３２、滞在時間計測領域３３、音声データベース３４、辞書データベース３５、及び分類データベース３６の構成と同じである。

上述した手段、機能は、コンピュータ（ＣＰＵ、情報処理装置、各種端末を含む）が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、フレキシブルディスク、ＣＤ（ＣＤ−ＲＯＭなど）、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭなど）等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置又は外部記憶装置に転送し記憶して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記憶装置（記録媒体）に予め記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。

以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

１音声内容記録システム
１０制御部
１１位置情報取得モジュール
１２状態情報等取得モジュール
１３音声認識モジュール
１４補正モジュール
１５復唱モジュール
１６記録モジュール
２０通信部
３０記憶部
３１履歴情報データベース
３２地図データベース
３３滞在時間計測領域
３４音声データベース
３５辞書データバース
３６分類データベース
４０入力部
５０集音部
６０位置検出部
７０タイマ
８０画像表示部

Claims

ユーザが特定の時点以前に訪れた場所の位置情報を取得する位置情報取得手段と、
前記ユーザが発声した音声を音声認識する音声認識手段と、
前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する補正手段と、
を備える音声認識補正システム。
前記位置情報取得手段は、前記ユーザの携帯端末から、当該ユーザが特定の時点以前に訪れた場所の位置情報を取得する、請求項１に記載の音声認識補正システム。
前記補正手段は、前記取得された位置情報に関するＷｅｂコンテンツを参照して、前記音声認識された内容を補正する、請求項１又は２に記載の音声認識補正システム。
前記補正手段は、前記取得された位置情報における天気情報を特定して、前記音声認識された内容を補正する、請求項１から３のいずれかに記載の音声認識補正システム。
前記補正手段は、前記取得された位置情報における時間情報を特定して、前記音声認識された内容を補正する、請求項１から４のいずれかに記載の音声認識補正システム。
前記ユーザの携帯端末から、当該ユーザの状態を示す状態情報を取得する状態情報取得手段をさらに備え、
前記補正手段は、前記取得された位置情報における状態情報を特定して、前記音声認識された内容を補正する、請求項１から５のいずれかに記載の音声認識補正システム。
前記ユーザが決済した決済情報を取得する決済情報取得手段をさらに備え、
前記補正手段は、前記取得された位置情報における決済情報を特定して、前記音声認識された内容を補正する、請求項１から６のいずれかに記載の音声認識補正システム。
複数の携帯端末と、これら複数の携帯端末とネットワークで接続されている管理コンピュータとを含んで構成され、
前記複数の携帯端末は、前記位置情報取得手段と、前記ユーザが発声した音声に関する音声情報を取得する音声情報取得手段とを有し、
前記管理コンピュータは、前記複数の携帯端末によって取得された前記位置情報及び前記音声情報を受信可能に構成され、
前記管理コンピュータは、前記位置情報を送信した携帯端末と、前記音声情報を送信した携帯端末とが同一の携帯端末であるかを判別する判別手段と、前記補正手段とを有し、
前記補正手段は、前記判別手段により同一の携帯端末であると判別された場合に、前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する、請求項１から７のいずれかに記載の音声認識補正システム。
前記補正された内容を復唱する復唱手段と、
前記復唱された結果、問題がない場合に前記補正された内容を記録する記録手段とをさらに備える、請求項１から８のいずれかに記載の音声認識システム。
請求項１に記載の音声認識補正システムを利用した音声認識補正方法であって、
前記位置情報取得手段が、ユーザが特定の時点以前に訪れた場所の位置情報を取得するステップと、
前記音声認識手段が、前記ユーザが発声した音声を音声認識するステップと、
前記補正手段が、前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正するステップと、
を備える音声認識補正方法。
音声認識システムに、
ユーザが特定の時点以前に訪れた場所の位置情報を取得するステップと、
前記ユーザが発声した音声を音声認識するステップと、
前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正するステップと、
を実行させるためのプログラム。