JP6457154B1 - 音声認識補正システム、方法及びプログラム - Google Patents

音声認識補正システム、方法及びプログラム Download PDF

Info

Publication number
JP6457154B1
JP6457154B1 JP2018516873A JP2018516873A JP6457154B1 JP 6457154 B1 JP6457154 B1 JP 6457154B1 JP 2018516873 A JP2018516873 A JP 2018516873A JP 2018516873 A JP2018516873 A JP 2018516873A JP 6457154 B1 JP6457154 B1 JP 6457154B1
Authority
JP
Japan
Prior art keywords
information
voice
recognized
content
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018516873A
Other languages
English (en)
Other versions
JPWO2018179426A1 (ja
Inventor
俊二 菅谷
俊二 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Optim Corp
Original Assignee
Optim Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Optim Corp filed Critical Optim Corp
Application granted granted Critical
Publication of JP6457154B1 publication Critical patent/JP6457154B1/ja
Publication of JPWO2018179426A1 publication Critical patent/JPWO2018179426A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供する。【解決手段】本発明の音声認識補正システム1において、制御部10は、位置情報取得モジュール11を実行し、ユーザが特定の時点以前に訪れた場所の位置情報を取得する。また、制御部10は、音声認識モジュール13を実行し、ユーザが発声した音声を音声認識する。そして、制御部10は、補正モジュール14を実行し、位置情報取得モジュール11の実行によって取得された位置情報に基づいて、音声認識モジュール13の実行によって音声認識された内容を補正する。【選択図】図1

Description

本発明は、音声認識補正システム、方法及びプログラムに関する。
近年、ユーザの音声を認識する音声認識システムが知られている。音声認識システムについては、音声認識の認識精度向上が課題であり、例えば、音声認識の対象となる利用者を撮影した画像をカメラから取得し、前記画像を用いて前記利用者を特定する顔認識手段と、予め記憶された個人毎の口の動きの特徴量を記憶した口の動きデータベースを有し、前記画像から利用者の口の状態を検出し、前記口の動きデータベースに記憶された前記利用者に対応する口の動きの特徴量と前記画像から得られた前記利用者の口の動きの特徴量とを比較し、前記利用者が話しているかどうかを判定する口の動き判定手段と、前記利用者が話していると判定された場合、前記利用者の音声を取得するための音声入力手段に前記利用者の位置を通知する指向方向決定手段と、前記音声を取得し音声認識を行う音声認識手段とを備えることが提案されている(例えば、特許文献1参照)。
特開2013−172411号公報
しかしながら、音声認識の精度向上については、なおいっそうの改良の余地がある。例えば、移動中のユーザが音声を認識させようとする場合、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合がある。この場合において、ユーザが認識させようとした音声の内容を補正し、当該音声を正しく認識することの可能なシステムの提供が求められている。
本発明は、このような要望に鑑みてなされたものであり、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
第1の特徴に係る発明は、
ユーザが特定の時点以前に訪れた場所の位置情報を取得する位置情報取得手段と、
前記ユーザが発声した音声を音声認識する音声認識手段と、
前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する補正手段と、
を備える音声認識補正システムを提供する。
第1の特徴に係る発明によれば、位置情報取得手段は、ユーザが特定の時点以前に訪れた場所の位置情報を取得し、補正手段は、位置情報取得手段によって取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、音声認識の内容を補正する。これにより、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが特定の時点以前に訪れた場所の位置情報から、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供することができる。
第2の特徴に係る発明は、第1の特徴に係る発明であって、
前記位置情報取得手段は、前記ユーザの携帯端末から、当該ユーザが特定の時点以前に訪れた場所の位置情報を取得する、音声認識補正システムを提供する。
第2の特徴に係る発明によれば、ユーザ自身が所有する携帯端末から、ユーザが特定の時点以前に訪れた場所の位置情報を取得し、その位置情報から、ユーザが認識させようとした音声の内容を推測する。そのため、当該音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
第3の特徴に係る発明は、第1又は第2の特徴に係る発明であって、
前記補正手段は、前記取得された位置情報に関するWebコンテンツを参照して、前記音声認識された内容を補正する、音声認識補正システムを提供する。
第3の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関するWebコンテンツを参照して、音声認識された内容を補正する。そのため、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
第4の特徴に係る発明は、第1から第3のいずれかの特徴に係る発明であって、
前記補正手段は、前記取得された位置情報における天気情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。
第4の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関する天気情報を特定して、音声認識された内容を補正する。そのため、ユーザが特定の時点以前に訪れた場所の天気に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
第5の特徴に係る発明は、第1から第4のいずれかの特徴に係る発明であって、
前記補正手段は、前記取得された位置情報における時間情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。
第5の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関する時間情報を特定して、音声認識された内容を補正する。そのため、ユーザが所定の場所に訪れた時刻に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
第6の特徴に係る発明は、第1から第5のいずれかの特徴に係る発明であって、
前記ユーザの携帯端末から、当該ユーザの状態を示す状態情報を取得する状態情報取得手段をさらに備え、
前記補正手段は、前記取得された位置情報における状態情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。
第6の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報における状態情報を特定して、音声認識された内容を補正する。そのため、ユーザが訪れた場所でのユーザの状態に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
第7の特徴に係る発明は、第1から第6のいずれかの特徴に係る発明であって、
前記ユーザが決済した決済情報を取得する決済情報取得手段をさらに備え、
前記補正手段は、前記取得された位置情報における決済情報を特定して、前記音声認識された内容を補正する、音声認識補正システムを提供する。
第7の特徴に係る発明によれば、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報における決済情報を特定して、音声認識された内容を補正する。そのため、ユーザが訪れた場所での決済状況と繋がる事項に関し、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
第8の特徴に係る発明は、第1から第7のいずれかの特徴に係る発明であって、
複数の携帯端末と、これら複数の携帯端末とネットワークで接続されている管理コンピュータとを含んで構成され、
前記複数の携帯端末は、前記位置情報取得手段と、前記ユーザが発声した音声に関する音声情報を取得する音声情報取得手段とを有し、
前記管理コンピュータは、前記複数の携帯端末によって取得された前記位置情報及び前記音声情報を受信可能に構成され、
前記管理コンピュータは、前記位置情報を送信した携帯端末と、前記音声情報を送信した携帯端末とが同一の携帯端末であるかを判別する判別手段と、前記補正手段とを有し、
前記補正手段は、前記判別手段により同一の携帯端末であると判別された場合に、前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する、音声認識補正システム、を提供する。
第8の特徴に係る発明によれば、音声認識補正システムが、複数の携帯端末と、これら複数の携帯端末とネットワークで接続されているネットワーク型のシステムである場合における誤認識を抑えることができる。これにより、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
第9の特徴に係る発明は、第1から第8のいずれかの特徴に係る発明であって、
前記補正された内容を復唱する復唱手段と、
前記復唱された結果、問題がない場合に前記補正された内容を記録する記録手段とをさらに備える、音声認識システムを提供する。
移動中のユーザが音声を認識させようとする場合、ユーザは、補正手段によって補正された内容を画面表示から確認することが難しい。第9の特徴に係る発明によれば、補正された内容が復唱されるため、ユーザが移動中であっても、画面表示に注視することなく、補正手段によって補正された内容を確認することができる。
また、記録手段は、復唱された結果、問題がない場合に補正された内容を記録する。そのため、第9の特徴に係る発明によれば、補正された内容に誤りがある場合に、補正された内容が記録されることを防ぐことができ、結果として、音声を認識する精度をよりいっそう高めることの可能なシステムを提供することができる。
本発明によれば、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが特定の時点以前に訪れた場所の位置情報から、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能なシステムを提供することができる。
図1は、本発明の第1実施形態における音声認識補正システム1のハードウェア構成とソフトウェア機能を示すブロック図である。 図2は、本実施形態における音声認識補正方法を示すフローチャートである。 図3は、本実施形態における位置情報データベース31の一例である。 図4は、本実施形態における滞在時間計測領域32の一例である。 図5は、集音内容を説明するための一例である。 図6は、本実施形態における音声データベース34の一例である。 図7は、本実施形態における辞書データベース35の一例である。 図8は、本実施形態における分類データベース36の一例である。 図9は、本実施形態における音声認識補正システム1での表示内容及び音声出力内容の一例である。 図10は、本実施形態における上書き保存後の音声データベース34の一例である。 図11は、本発明の第1実施形態における音声認識補正システム1のハードウェア構成とソフトウェア機能を示すブロック図である。
以下、本発明を実施するための形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
1.第1の実施形態
まず、本発明の第1の実施形態について説明する。
音声認識補正システムは、スマートフォン、スマートグラス、スマートウォッチ等の携帯端末に一体的に設けられたスタンドアローン型のシステムであってもよいし、携帯端末と当該携帯端末とネットワークを介して接続される管理コンピュータとを備えるネットワーク型のシステムであってもよい。
第1の実施形態では、音声認識補正システムがスタンドアローン型のシステムであるものとして説明する。それに対し、後述する第2の実施形態では、音声認識補正システムがネットワーク型のシステムであるものとして説明する。
<音声認識補正システム1の構成>
図1は、本実施形態における音声認識補正システム1のハードウェア構成とソフトウェア機能を説明するためのブロック図である。
音声認識補正システム1は、データを制御する制御部10と、他の機器と通信を行う通信部20と、データを記憶する記憶部30と、ユーザの操作を受け付ける入力部40と、ユーザの声を集音する集音部50と、音声認識補正システム1が存在する位置を検出する位置検出部60と、一定の場所での滞在時間を計測するタイマ70と、制御部10で制御したデータや画像を出力表示する画像表示部80とを備える。
制御部10は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備える。
通信部20は、他の機器と通信可能にするためのデバイス、例えば、IEEE802.11に準拠したWi−Fi(Wireless Fidelity)対応デバイスを備える。
制御部10は、所定のプログラムを読み込み、必要に応じて通信部20と協働することで、位置情報位置情報取得モジュール11と、状態情報等取得モジュール12と、音声認識モジュール13と、補正モジュール14と、復唱モジュール15と、記録モジュール16とを実現する。
記憶部30は、データやファイルを記憶する装置であって、ハードディスクや半導体メモリ、記録媒体、メモリカード等による、データのストレージ部を備える。記憶部30は、後に説明する履歴情報データベース31、地図データベース32、滞在時間計測領域33、音声データベース34、辞書データベース35、及び分類データベース36を記憶する。また、記憶部30は、画像表示部80に表示させる画像のデータを記憶する。
入力部40の種類は、特に限定されない。入力部40として、例えば、キーボード、マウス、タッチパネル等が挙げられる。
集音部50の種類は、特に限定されない。集音部50として、例えば、マイク等が挙げられる。
位置検出部60は、音声認識補正システム1が位置する緯度及び経度を検出できる装置であれば、特に限定されない。位置検出部60として、例えば、GPS(Global Positioning System)が挙げられる。
タイマ70の種類は、一定の場所での滞在時間を計測可能であれば、特に限定されない。
画像表示部80の種類は、特に限定されない。画像表示部80として、例えば、モニタ、タッチパネル等が挙げられる。
<音声認識補正システム1を用いた音声認識補正方法を示すフローチャート]
図2は、音声認識補正システム1を用いた音声認識補正方法を示すフローチャートである。上述した各ハードウェアと、ソフトウェアモジュールが実行する処理について説明する。
〔ステップS10:位置情報の取得〕
最初に、音声認識補正システム1の制御部10は、位置情報取得モジュール11を実行し、ユーザが特定の時点以前に訪れた場所の位置情報を取得する(ステップS10)。
音声認識補正システム1の位置検出部60は、音声認識補正システム1が位置する緯度及び経度を随時検出する。そして、制御部10は、地図データベース32を参照し、位置検出部60が検出した緯度及び経度に相当する場所を検索する。そして、制御部10は、検索した場所を履歴情報データベース31に記録する。
図3は、履歴情報データベース31の一例を示す。履歴情報データベース31には、位置検出部60が位置情報を検出したときの日付及び時刻と、位置検出部60が検出した位置に相当する場所との情報が識別番号と関連づけて記録されている。
日付は、音声内容補正システム1に内蔵されているカレンダー機能(図示せず)を参照することで、記録可能である。時刻は、音声内容補正システム1に内蔵されている時計機能(図示せず)を参照することで、記録可能である。
制御部10は、履歴情報データベース31を参照することで、ユーザが特定の時点以前に訪れた場所の位置情報を取得できる。
〔ステップS11:状態情報等の取得〕
図2に戻る。続いて、制御部10は、状態情報等取得モジュール12を実行し、ユーザの状態を示す状態情報や、現在の天気の情報、クレジットカードや電子決済に関する決済情報等を取得する(ステップS11)。
音声認識補正システム1のタイマ70は、音声認識補正システム1が一定の場所にとどまっている時間を計測し、滞在時間計測領域32に記録する。
図4は、滞在時間計測領域32の一例である。滞在時間計測領域32には、音声認識補正システム1の滞在場所、滞在開始日時、滞在終了日時の情報が記録される。
音声認識補正システム1が一定の場所に所定時間以上とどまっていることが、滞在時間計測領域32に記録されると、制御部10は、ユーザが一定の場所に滞在しているとして、履歴情報データベース31における「状態」の項目を「滞在中」に更新する。
また、制御部10は、通信部20を介して外部の天気予報提供Webサイトにアクセスする。そして、制御部10は、当該天気予報提供Webサイトから、位置検出部60が検出した緯度及び経度に相当する地点における天気の情報を読み出す。そして、制御部10は、読み出した天気の情報を履歴情報データベース31に記録する。
また、携帯端末が有するクレジットカード機能や電子決済機能が利用されると、制御部10は、クレジットカードや電子決済に関する決済情報を履歴情報データベース31に記録する。
図3に示す履歴情報データベース31は、位置検出部60が位置情報を検出したときの日付、時刻及び場所の情報だけでなく、ユーザの状態を示す状態情報や、現在の天気の情報、クレジットカードや電子決済に関する決済情報等についても、識別番号と関連づけて記録されている。
制御部10は、履歴情報データベース31を参照することで、これら状態情報、天気情報、決済情報等を取得できる。
〔ステップS12:音声の集音〕
図2に戻る。続いて、制御部10は、集音部50がユーザの音声を集音したか否かを判別する(ステップS12)。
集音部50がユーザの音声を集音すると、制御部10は、集音部50で集音した音声をA/D変換し、A/D変換された情報を記憶部30の所定領域にセットする。
例えば、図5に示すように、ユーザは、「今日は、銀座に出かけた。晴れて良かった。Aデパートに寄ってブランドXの服を購入した。」と音声を発生したとする。この場合、音声認識補正システム1の集音部50は、その音声を集音する。そして、制御部10は、集音部50で集音した音声をA/D変換し、A/D変換された情報を記憶部30の所定領域にセットする。
ステップS12での判別がYESのときは、処理をステップS13に移す。それに対し、ステップS12での判別がNOのときは、ステップS10の処理に戻る。
〔ステップS13:音声認識〕
図2に戻る。続いて、制御部10は、音声認識モジュール13を実行し、集音部50が集音した音声を音声認識する(ステップS13)。
制御部10は、図6に示す音声データベース34を参照し、A/D変換された情報が有する音波の波形から、集音部50で集音した音声を文字起こしする。この処理により、A/D変換された情報は、「キョウハ???ニデカケタ/ハレテヨカッタ/???ニヨッテブランド???ノフクヲコウニュウシタ」とされる。なお、「???」は、周囲の雑音等から、音声内容補正システム1の集音部50が音声を集音しきれなかった箇所である。
続いて、制御部10は、図7に示す辞書データベース35を参照し、文字起こしされた情報を言語に置き換え、文章化する。この処理により、A/D変換された情報は、「今日は、???に出かけた。晴れて良かった。???に寄って???の服を購入した。」とされる。文章化された情報は、A/D変換された情報と関連づけて、記憶部30の所定領域にセットされる。
〔ステップS14:音声認識した内容の補正〕
図2に戻る。続いて、制御部10は、補正モジュール14を実行し、ステップS10の処理で取得した位置情報、ステップS11の処理で取得した状態情報等に基づいて、ステップS13の処理で音声認識した内容を補正する(ステップS14)。
制御部10は、分類データベース36を参照する。図8は、分類データベース36の一例である。分類データベース36には、文章化された内容に含まれる単語等と、履歴情報データベース31にリストアップされている項目との関係が予め記録されている。本実施形態では、履歴情報データベース31(図3)には、「日付」、「時刻」、「場所」、「状態」、「天気」、「決済情報」等の項目がリストアップされている。分類データベース36には、これら項目に関連する単語群が記録されている。
音声認識された内容である「今日は、???に出かけた。晴れて良かった。???に寄って???の服を購入した。」との情報について説明する。制御部10は、分類データベース36を参照し、この情報に含まれる「今日」を項目「日付」と関連づけ、「出かけた」を項目「場所」と関連づける。また、「良かった」を項目「天気」と関連づけ、「寄って」を項目「場所」と関連づける。また、「服」を項目「決済情報」と関連づけ、「購入」を項目「決済情報」と関連づける。
続いて、制御部10は、履歴情報データベース31を参照する。まず、制御部10は、履歴情報データベース31の項目「日付」を参照し、音声認識された内容に含まれる「今日」に関する項目を抽出する。なお、今日がいつであるかは、記憶部30に記憶されているカレンダー(図示せず)を読み出すことで把握できる。本実施形態では、今日が2017年3月20日であるものとして説明する。
続いて、制御部10は、履歴情報データベース31の項目「場所」を参照し、音声認識された内容に含まれる「出かけた」、「寄って」に関する項目を抽出する。
音声認識された内容から、「出かけた」場所、「寄って」た場所を直ちに特定できないものの、制御部10は、履歴情報データベース31に記録された内容から、「出かけた」場所、「寄って」た場所は、「有楽町」、「有楽町駅」、「Aデパート」、「デパート」、「銀座」、「Aデパート銀座店」のいずれかであると推測できる。
そして、制御部10は、音声データベース34(図6)を参照し、「有楽町」、「有楽町駅」、「Aデパート」、「デパート」、「銀座」、「Aデパート銀座店」に相当する音声データ(波形データ)を合成する。続いて、制御部10は、合成した音声データと、ステップS13の処理でA/D変換された音声データとを比較し、「???に出かけた。」、「???に寄って」の「???」に相当する音声データに最も近い音声を抽出する。
これにより、制御部10は、「???に出かけた。」の「???」は、「銀座」であり、「???に寄って」の「???」は、「Aデパート」であると推測できる。
同様に、制御部10は、履歴情報データベース31の項目「決済情報」を参照し、音声認識された内容に含まれる「服」、「購入」に関する項目を抽出する。
音声認識された内容から、「服」を「購入」した内容を直ちに特定できないものの、制御部10は、履歴情報データベース31に記録された内容から、「服」を「購入」した内容は、「ブランドX」、「シャツ」、「7560円」、「クレジットカード」、「カード決済」のいずれかであると推測できる。
そして、制御部10は、音声データベース34(図6)を参照し、「ブランドX」、「シャツ」、「7560円」、「クレジットカード」、「カード決済」に相当する音声データ(波形データ)を合成する。続いて、制御部10は、合成した音声データと、ステップS13の処理でA/D変換された音声データとを比較し、「???の服を購入した。」の「???」に相当する音声データに最も近い音声を抽出する。
これにより、制御部10は、「???の服を購入した。」の「???」は、「ブランドX」であると推測できる。
上記から、ステップS13の処理で音声認識した内容である「今日は、???に出かけた。晴れて良かった。???に寄って???の服を購入した。」との情報は、「今日は、銀座に出かけた。晴れて良かった。Aデパートに寄ってブランドXの服を購入した。」との情報に補正できる。
本実施形態に記載の発明によれば、制御部10は、ステップS10の処理において、ユーザが特定の時点以前に訪れた場所の位置情報を取得し、ステップS14の処理において、ステップS10の処理で取得した位置情報に基づいて、音声認識の内容を補正する。これにより、周囲の雑音等から、システムの集音装置が音声を集音しきれない場合であっても、ユーザが特定の時点以前に訪れた場所の位置情報から、ユーザが認識させようとした音声の内容を推測し、当該音声を正しく認識することの可能な音声内容補正システム1を提供することができる。
また、ステップS14の処理において、制御部10は、ステップS11の処理で取得した位置情報における天気情報、時間情報、ユーザの状態を示す状態情報、ユーザが決済した決済情報を特定して、ステップS13の処理で音声認識された内容を補正することを可能にする。本実施形態に記載の発明によると、ユーザが特定の時点以前に訪れた場所の位置情報に加え、その位置情報に関する各種の情報を特定して、音声認識された内容を補正することを可能にする。そのため、音声を認識する精度をよりいっそう高めることの可能な音声内容補正システム1を提供することができる。
また、ステップS14の処理において、制御部10は、ステップS10の処理で取得した位置情報に関するWebコンテンツを参照して、ステップS13の処理で音声認識した内容を補正することが好ましい。そうすることで、音声を認識する精度をよりいっそう高めることの可能な音声内容補正システム1を提供することができる。
〔ステップS15:補正内容の復唱〕
図2に戻る。続いて、制御部10は、復唱モジュール15を実行し、ステップS14の処理で補正された内容を復唱する(ステップS15)。
図9は、そのときの音声内容補正システム1の状態の一例を示す。
画像表示部80には、「今日は、銀座に出かけた。晴れて良かった。Aデパートに寄ってブランドXの服を購入した。」との文章が表示され、その下に、「これで間違いありませんか?」との文章が表示されるとともに、「OK」とのアイコンが表示されている。そして、音声内容補正システム1のスピーカ(図示せず)からは、「今日は、銀座に出かけた。晴れて良かった。Aデパートに寄ってブランドXの服を購入した。」との音声が復唱される。そして、「これで間違いありませんか?間違えなければ、「はい」と答えるか、「OK」を押してください。」との音声が出力される。
移動中のユーザが音声を認識させようとする場合、ユーザは、ステップS14の処理で補正された内容を画面表示から確認することが難しい。本実施形態に記載の発明によれば、補正された内容が、画像表示部80での画面表示だけでなく、スピーカからの音声として復唱されるため、ユーザが移動中であっても、画面表示に注視することなく、ステップS14の処理で補正された内容を確認することができる。
〔ステップS16:補正内容の記録〕
図2に戻る。続いて、制御部10は、記録モジュール16を実行し、ステップS15の処理で復唱された結果、問題がない場合に、ステップS14の処理で補正された内容を記録する(ステップS16)。
ステップS13の処理でA/D変換された音声データのうち、ステップS13の処理だけではその内容が不明であった箇所の内容は、「銀座」、「Aデパート」、「ブランドX」であることが判明した。制御部10は、ステップS13の処理でA/D変換された音声データから、「銀座」、「A」、「デパート」、「Aデパート」、「ブランド」、「X」、「ブランドX」に相当する箇所の波形を抽出し、もともと記憶されていた音声データベース34に上書き保存する。
図10は、上書き保存された後の音声データベース34の一例を示す。音声データベース34には、新たに、「銀座」、「A」、「デパート」、「Aデパート」、「ブランド」、「X」、「ブランドX」の音声データが追加されている。
本実施形態に記載の発明によると、ステップS15の処理で復唱された結果、問題がない場合に、補正された内容を記録する。そのため、ステップS14の処理で補正された内容に誤りがある場合に、誤った内容が記録されることを防ぐことができ、結果として、音声を認識する精度をよりいっそう高めることの可能な音声認識補正システム1を提供することができる。
2.第2の実施形態
次に、本発明の第2の実施形態について説明する。
第1の実施形態では、音声認識補正システムがスタンドアローン型のシステムであるものとして説明した。それに対し、第2の実施形態は、音声認識補正システムがネットワーク型のシステムである点で異なり、その余は同じである。
<音声認識補正システム100>
図11は、本実施形態における音声認識補正システム100のハードウェア構成とソフトウェア機能を説明するためのブロック図である。
音声認識補正システム100は、複数の携帯端末200と、これら複数の携帯端末200とネットワークで接続されている管理コンピュータ300とを含んで構成される。
〔携帯端末200〕
携帯端末200は、それぞれ、制御部210と、通信部220と、記憶部230と、入力部240と、集音部250と、位置検出部260と、画像表示部280とを備える。
制御部210は、位置情報取得モジュール211と、状態情報等取得モジュール212と、復唱モジュール215とを有する。
集音部250は、ユーザが発声した音声に関する音声情報を取得する音声情報取得手段として機能する。
なお、通信部220、記憶部230、入力部240、位置検出部260、及び画像表示部280の機能は、第1の実施形態における通信部20、記憶部30、入力部40、位置検出部60、及び画像表示部80の機能と同じである。
また、位置情報取得モジュール211、状態情報等取得モジュール212、及び復唱モジュール215の機能は、第1の実施形態における位置情報取得モジュール11、状態情報等取得モジュール12、及び復唱モジュール15の機能と同じである。
〔管理コンピュータ300〕
管理コンピュータ300は、制御部310と、通信部320と、記憶部330と、入力部340と、画像表示部380とを備える。
制御部310は、音声認識モジュール313と、補正モジュール314と、記録モジュール316とを有する。
通信部320は、複数の携帯端末200によって取得された位置情報及び音声情報を受信可能に構成される。
記憶部330には、履歴情報データベース331、地図データベース332、滞在時間計測領域333、音声データベース334、辞書データベース335、及び分類データベース336が記憶されている。
ところで、制御部310は、複数の携帯端末200のうち、位置情報を送信した携帯端末と、音声情報を送信した携帯端末とが同一の携帯端末であるかを判別する。そして、制御部310の補正モジュール314は、位置情報を送信した携帯端末と、音声情報を送信した携帯端末とが同一の携帯端末である場合に、当該携帯端末が取得した位置情報に基づいて、当該携帯端末の集音部250が集音した音声について音声認識された内容を補正する。
これにより、音声認識補正システム1が、複数の携帯端末200と、これら複数の携帯端末200とネットワークで接続されている管理コンピュータ300とを備えるネットワーク型のシステムである場合における誤認識を抑えることができる。したがって、音声を認識する精度をよりいっそう高めることの可能なネットワーク型の音声認識補正システム1を提供することができる。
なお、入力部340及び画像表示部380の機能は、第1の実施形態における入力部40及び画像表示部80の機能と同じである。
また、音声認識モジュール313、補正モジュール314、及び記録モジュール316の機能は、基本的に、第1の実施形態における音声認識モジュール13、補正モジュール14、及び記録モジュール16の機能と同じである。
また、履歴情報データベース331、地図データベース332、滞在時間計測領域333、音声データベース334、辞書データベース335、及び分類データベース336の構成は、第1の実施形態における履歴情報データベース31、地図データベース32、滞在時間計測領域33、音声データベース34、辞書データベース35、及び分類データベース36の構成と同じである。
上述した手段、機能は、コンピュータ(CPU、情報処理装置、各種端末を含む)が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、フレキシブルディスク、CD(CD−ROMなど)、DVD(DVD−ROM、DVD−RAMなど)等のコンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置又は外部記憶装置に転送し記憶して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記憶装置(記録媒体)に予め記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。
以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 音声内容記録システム
10 制御部
11 位置情報取得モジュール
12 状態情報等取得モジュール
13 音声認識モジュール
14 補正モジュール
15 復唱モジュール
16 記録モジュール
20 通信部
30 記憶部
31 履歴情報データベース
32 地図データベース
33 滞在時間計測領域
34 音声データベース
35 辞書データバース
36 分類データベース
40 入力部
50 集音部
60 位置検出部
70 タイマ
80 画像表示部

Claims (11)

  1. ユーザが特定の時点以前に訪れた場所の位置情報を取得する位置情報取得手段と、
    前記ユーザが発声した音声を音声認識する音声認識手段と、
    前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する補正手段と、
    を備える音声認識補正システム。
  2. 前記位置情報取得手段は、前記ユーザの携帯端末から、当該ユーザが特定の時点以前に訪れた場所の位置情報を取得する、請求項1に記載の音声認識補正システム。
  3. 前記補正手段は、前記取得された位置情報に関するWebコンテンツを参照して、前記音声認識された内容を補正する、請求項1又は2に記載の音声認識補正システム。
  4. 前記補正手段は、前記取得された位置情報における天気情報を特定して、前記音声認識された内容を補正する、請求項1から3のいずれかに記載の音声認識補正システム。
  5. 前記補正手段は、前記取得された位置情報における時間情報を特定して、前記音声認識された内容を補正する、請求項1から4のいずれかに記載の音声認識補正システム。
  6. 前記ユーザの携帯端末から、当該ユーザの状態を示す状態情報を取得する状態情報取得手段をさらに備え、
    前記補正手段は、前記取得された位置情報における状態情報を特定して、前記音声認識された内容を補正する、請求項1から5のいずれかに記載の音声認識補正システム。
  7. 前記ユーザが決済した決済情報を取得する決済情報取得手段をさらに備え、
    前記補正手段は、前記取得された位置情報における決済情報を特定して、前記音声認識された内容を補正する、請求項1から6のいずれかに記載の音声認識補正システム。
  8. 複数の携帯端末と、これら複数の携帯端末とネットワークで接続されている管理コンピュータとを含んで構成され、
    前記複数の携帯端末は、前記位置情報取得手段と、前記ユーザが発声した音声に関する音声情報を取得する音声情報取得手段とを有し、
    前記管理コンピュータは、前記複数の携帯端末によって取得された前記位置情報及び前記音声情報を受信可能に構成され、
    前記管理コンピュータは、前記位置情報を送信した携帯端末と、前記音声情報を送信した携帯端末とが同一の携帯端末であるかを判別する判別手段と、前記補正手段とを有し、
    前記補正手段は、前記判別手段により同一の携帯端末であると判別された場合に、前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正する、請求項1から7のいずれかに記載の音声認識補正システム。
  9. 前記補正された内容を復唱する復唱手段と、
    前記復唱された結果、問題がない場合に前記補正された内容を記録する記録手段とをさらに備える、請求項1から8のいずれかに記載の音声認識システム。
  10. 請求項1に記載の音声認識補正システムを利用した音声認識補正方法であって、
    前記位置情報取得手段が、ユーザが特定の時点以前に訪れた場所の位置情報を取得するステップと、
    前記音声認識手段が、前記ユーザが発声した音声を音声認識するステップと、
    前記補正手段が、前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正するステップと、
    を備える音声認識補正方法。
  11. 音声認識システムに、
    ユーザが特定の時点以前に訪れた場所の位置情報を取得するステップと、
    前記ユーザが発声した音声を音声認識するステップと、
    前記取得された、前記ユーザが特定の時点以前に訪れた場所の位置情報に関連する複数の項目についての履歴情報のうち、再認識する音声の部分の項目に対応する項目の履歴情報を複数選択し、選択された当該履歴情報に相当する音声データを合成し、合成した音声データと前記再認識する音声の部分とを比較し、最も近い履歴情報を、前記再認識する音声の部分の内容にするように、前記音声認識された内容を補正するステップと、
    を実行させるためのプログラム。
JP2018516873A 2017-03-31 2017-03-31 音声認識補正システム、方法及びプログラム Active JP6457154B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/013826 WO2018179426A1 (ja) 2017-03-31 2017-03-31 音声認識補正システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6457154B1 true JP6457154B1 (ja) 2019-01-23
JPWO2018179426A1 JPWO2018179426A1 (ja) 2019-04-04

Family

ID=63674781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018516873A Active JP6457154B1 (ja) 2017-03-31 2017-03-31 音声認識補正システム、方法及びプログラム

Country Status (2)

Country Link
JP (1) JP6457154B1 (ja)
WO (1) WO2018179426A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534112B (zh) * 2019-08-23 2021-09-10 王晓佳 基于位置与时间的分布式语音识别纠错方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163265A (ja) * 2002-11-13 2004-06-10 Nissan Motor Co Ltd ナビゲーション装置
JP2005030982A (ja) * 2003-07-09 2005-02-03 Matsushita Electric Ind Co Ltd 音声入力方法及び、車載装置
JP2006349427A (ja) * 2005-06-14 2006-12-28 Toyota Motor Corp 車載音声認識装置
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163265A (ja) * 2002-11-13 2004-06-10 Nissan Motor Co Ltd ナビゲーション装置
JP2005030982A (ja) * 2003-07-09 2005-02-03 Matsushita Electric Ind Co Ltd 音声入力方法及び、車載装置
JP2006349427A (ja) * 2005-06-14 2006-12-28 Toyota Motor Corp 車載音声認識装置
JP2012093508A (ja) * 2010-10-26 2012-05-17 Nec Corp 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム

Also Published As

Publication number Publication date
WO2018179426A1 (ja) 2018-10-04
JPWO2018179426A1 (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
US8918320B2 (en) Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
CN117577099A (zh) 设备上的多用户认证的方法、系统和介质
JP6107409B2 (ja) 位置特定処理装置及び位置特定処理プログラム
US9188456B2 (en) System and method of fixing mistakes by going back in an electronic device
US8521681B2 (en) Apparatus and method for recognizing a context of an object
JP6017678B2 (ja) 音声制御ナビゲーション・システム用のランドマークに基づく場所思考追跡
CN112214418B (zh) 一种应用程序的合规检测方法、装置和电子设备
CN103488666B (zh) 信息处理设备和方法、电子装置以及计算机可读存储介质
US8977547B2 (en) Voice recognition system for registration of stable utterances
WO2011093025A1 (ja) 入力支援システム、方法、およびプログラム
US20140324428A1 (en) System and method of improving speech recognition using context
US20170125017A1 (en) Control device and message output control system
CN111028842B (zh) 触发语音交互响应的方法及设备
US10515634B2 (en) Method and apparatus for searching for geographic information using interactive voice recognition
CN103858497A (zh) 用于提供基于位置的信息的方法和设备
CN109947971B (zh) 图像检索方法、装置、电子设备及存储介质
CN110998719A (zh) 信息处理设备和信息处理方法
WO2019205398A1 (zh) 用户行为激励方法、装置、计算机设备及存储介质
US20120226497A1 (en) Sound recognition method and system
JP6457154B1 (ja) 音声認識補正システム、方法及びプログラム
US11495245B2 (en) Urgency level estimation apparatus, urgency level estimation method, and program
JP2010016444A (ja) 状況認識装置、状況認識方法、及び無線端末装置
KR20150037104A (ko) 클라우드 소싱 기반 관심 지점 정보 업데이트 방법, 이를 위한 시스템 및 장치
CN112863496B (zh) 一种语音端点检测方法以及装置
CN110263135B (zh) 一种数据交换匹配方法、装置、介质和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180330

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180330

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181219

R150 Certificate of patent or registration of utility model

Ref document number: 6457154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250