JP2015087728A - 音声認識システムおよび音声認識システムの制御方法 - Google Patents

音声認識システムおよび音声認識システムの制御方法 Download PDF

Info

Publication number
JP2015087728A
JP2015087728A JP2013228677A JP2013228677A JP2015087728A JP 2015087728 A JP2015087728 A JP 2015087728A JP 2013228677 A JP2013228677 A JP 2013228677A JP 2013228677 A JP2013228677 A JP 2013228677A JP 2015087728 A JP2015087728 A JP 2015087728A
Authority
JP
Japan
Prior art keywords
dictionary
answer
question
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013228677A
Other languages
English (en)
Other versions
JP6258002B2 (ja
Inventor
直輝 杉本
Naoteru Sugimoto
直輝 杉本
信子 三好
Nobuko Miyoshi
信子 三好
智裕 岩本
Tomohiro Iwamoto
智裕 岩本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Soft Inc
Original Assignee
Fuji Soft Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Soft Inc filed Critical Fuji Soft Inc
Priority to JP2013228677A priority Critical patent/JP6258002B2/ja
Publication of JP2015087728A publication Critical patent/JP2015087728A/ja
Application granted granted Critical
Publication of JP6258002B2 publication Critical patent/JP6258002B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声出力部から音声出力される発話データに応じた所定の辞書データベースを事前に選択し、音声入力部に入力される音声を比較的短時間かつ精度よく認識できるようにすること。【解決手段】音声認識システムは、音声出力部に入力される発話データの類型を判定し、判定結果に基づいて、予め記憶された複数の辞書データベースの中から所定の辞書データベースを選択する(S20、S21)。さらに、音声認識システムは、音声入力部から入力された音声を所定の辞書データベースを用いて認識する(S25)。質問文を音声出力する際に、その質問文に対応する質問語尾別回答認識辞書を選択して待機するため、質問文に対するユーザの回答を速やかにかつ正しく認識することができる。【選択図】図5

Description

本発明は、音声認識システムおよび音声認識システムの制御方法に関する。
ユーザの音声を認識し、その認識結果に応じて応答する対話型の音声認識システムが普及しつつある。そのようなシステムの中には、ユーザの命令に関連して、またはユーザの命令とは無関係に、ユーザに対しさまざまな質問を投げかけて、ユーザからの回答に応じて反応するものがある。なお、音声認識に関する従来技術としては、特許文献1や特許文献2が知られている。
特開2010−54549号公報 特許第4855421号公報
特許文献1に記載の従来技術は、音声認識装置の有する表示部に、ユーザへの質問とその回答候補とを表示することで、ユーザが回答候補の中からいずれかを選択して発話するように誘導するため、誤認識の可能性を低減することができる。しかし、音声認識装置が表示部を持たない場合には適用することができない。また、表示部に表示可能な回答候補の数は画面サイズにより制限され、多数の回答候補に対応するのが難しい。
特許文献2に記載の従来技術は、複数の認識辞書を用意し、誤認識の発生時には認識回数の多い辞書に切り替えて使用するため、音声認識率が向上する。しかし、誤認識が発生するたびに辞書を切り替えて再び音声認識するため、正しい認識結果を得るまでに時間がかかる可能性がある。また、一つ一つの辞書の登録語数が多い場合、複数の辞書を記憶するために多量の記憶領域が必要となり、さらに音声認識処理にも時間を要する。
ところで、近年では、音声認識システムを利用したアプリケーションプログラムをユーザが開発することがある。しかし、音声認識に関する深い知識が無いと、音声認識システムを用いたコミュニケーションシステムを開発するのは困難であるため、アプリケーション開発者にとって使い勝手が悪い。
本発明は、上記の問題に鑑みてなされたもので、その目的は、音声出力部から音声出力される発話データに応じた所定の辞書データベースを事前に選択することで、音声入力部に入力される音声を比較的短時間かつ精度よく認識できるようにした音声認識システムおよび音声認識システムの制御方法を提供することにある。本発明の他の目的は、発話データの類型に応じた所定の辞書データベースを選択するため、音声認識に詳しくない開発者であっても比較的容易に利用することができるようにした音声認識システムおよび音声認識システムの制御方法を提供することにある。
本発明の一つの観点に係る音声認識システムは、音声を認識して応答する音声認識システムであって、入力された発話データを音声に変換して出力する音声出力部と、音声出力部に入力される発話データの類型を判定する発話類型判定部と、発話類型判定部の判定結果に基づいて、予め記憶部に記憶された複数の辞書データベースの中から所定の辞書データベースを選択する辞書選択部と、音声入力部から入力された音声を辞書選択部が選択した所定の辞書データベースを用いて認識する音声認識部と、を備える。
発話データは質問文であり、複数の辞書データベースには、質問文一般に対して適用可能な基本回答辞書データベースが含まれていてもよい。そして、基本回答辞書データベースは、予め設定された複数の回答種別ごとに基本回答例を対応づけており、辞書選択部は、所定の辞書データベースの一つとして基本回答辞書データベースを少なくとも選択することもできる。
複数の辞書データベースには、予め設定された複数の質問類型ごとにそれぞれ用意された質問類型別辞書データベースがさらに含まれており、発話類型判定部は、発話データと複数の質問類型とを比較することで、発話データが各質問類型のいずれに該当するかを判定し、辞書選択部は、各質問類型別辞書データベースの中から発話データに対応する質問類型を有する質問類型別辞書データベースを所定の辞書データベースの一つとして選択することもできる。
各質問類型別辞書データベースは、質問類型に対応する質問類型別回答例を回答種別毎に予め用意することで構成することができる。
回答種別毎に所定の反応が予め設定されており、音声認識部による音声認識結果として検出された回答種別に対応する所定の反応を示す反応制御情報を出力してもよい。
発話データを音声出力部に与える発話データ入力部をさらに備え、かつ、複数の辞書データベースには、通常の音声認識処理に使用するための一般辞書データベースが含まれてもよい。発話データ入力部が音声出力部に発話データを入力する前の状態では、音声認識部は、一般辞書データベースを用いて、音声入力部から入力された音声を認識し、発話データ入力部が音声出力部に発話データを入力する状態では、辞書選択部が選択した所定の辞書データベースを用いて、音声入力部から入力された音声を認識してもよい。
音声認識システムの全体構成を示すブロック図である。 基本回答認識辞書の構成例を示す。 質問語尾別回答認識辞書の構成例を示す。 音声認識システムの全体動作を示すフローチャートである。 質問語尾別回答辞書を用いた応答処理を示すフローチャートである。 回答種別ごとの反応を定義する反応定義テーブルの構成例を示す。 質問の語尾に応じた辞書を選択する処理を示すフローチャートである。 第2実施例に係る音声認識システムの全体構成を示すブロック図である。 音声認識システムを利用するアプリケーションプログラムを作成する処理の概略を示すフローチャートである。 第3実施例に係り、質問の語尾に応じた辞書を選択する処理を示すフローチャートである。
本実施形態では、以下に詳述する通り、質問文として音声出力される発話データの質問類型を事前に判定し、その判定結果に応じた所定の辞書(基本回答辞書、質問類型別辞書)を選択して、ユーザからの音声を待つ。音声出力部から出力された音声に応じてユーザが発する回答は、音声入力部から入力される。音声認識部は、音声認識前に選択済みの所定の辞書を用いて、ユーザからの回答の種別を認識する。音声認識システムは、ユーザの回答の種別に応じて予め定義されている所定の反応を示す反応制御情報を出力する。これにより、本実施例では、質問文に対するユーザからの回答を正しくかつ速やかに認識し、より豊かな人と機械とのコミュニケーションを実現することができる。さらに、後述する他の実施例によれば、音声認識システムを利用するアプリケーションを開発するユーザは、音声認識についての詳しい知識が無くても、比較的容易にアプリケーションを開発することができる。
図1は、本実施例の音声認識システム1の全体構成を示すブロック図である。音声認識システム1は、ユーザと対話しながらユーザの指示を理解し、ユーザの指示した所定の動作を実行する。このような対話型音声認識システムは、例えば、ロボット2、携帯情報端末(携帯電話、音楽再生装置、デジタルカメラ、テレビジョン装置などの電化製品、パーソナルコンピュータなどを含む)3、乗用車、トラック、建設機械などの各種車両4などにも広く適用できる。それら以外の装置、システムなどにも本実施例の音声認識システム1を適用できる。
本実施例では、ユーザと対話して動作する対話型ロボット2に適用する場合を例に挙げて説明する。以下の説明では、音声認識システムと、音声認識システムの搭載されるシステム(ロボット制御システム)とを特に区別せずに説明する。
音声認識システム1は、マイクロプロセッサ、メモリ、入出力部などを有するコンピュータシステムとして構成されており、例えば、音声入力部11、音声認識部12、応答処理部13、制御部14、質問文設定部15、質問語尾抽出部16、辞書選択部17、アクティブ辞書格納部18、記憶部20を備えている。
音声入力部11は、音声を音声認識システム1に入力するための装置である。例えば、マイクロフォンなどが音声入力部11として使用されてもよい。メモリ装置などに記憶された音声データを音声認識システム1に入力できる構成としてもよい。この場合、音声入力部11は、メモリ装置からデータを受け取るためのインターフェース回路を備えて構成される。音声入力部11に入力された音声は、A/D変換回路によりデジタル信号としての音声データに変換されて音声認識部12に引き渡される。
音声認識部12は、辞書選択部17により選択され、アクティブ辞書格納部18に格納された辞書データベースを用いて、音声データを音声認識する。応答処理部13は、音声認識部12の認識結果に応じて制御部14に指示を与え、所定の応答を出力する。
制御部14は、応答処理部13からの指示に応じてユーザへの応答を制御する。制御部14は、例えば、発話部141、駆動部142、表示部143を備える。発話部141は「音声出力部」の一例であり、発話データを音声に変換してスピーカから出力する。
駆動部142は、音声認識システムの搭載されたシステム(ロボット、携帯電話、車両など)の有するアクチュエータに制御信号を出力して駆動する。駆動部142が駆動可能な対象は、音声認識システムを搭載するシステムの種類などによって相違する。
表示部143は、例えば、液晶ディスプレイ、プラズマディスプレイ、有機EL(ElectroLuminescence)ディスプレイなどのディスプレイ装置、LED(Light Emitting Diode)ランプなどから構成される。
質問文設定部15は「発話データ入力部」の一例であり、アプリケーションプログラム50からの質問文を発話データとして設定する。質問文設定部15が設定した発話データは、発声部141および質問語尾抽出部16に入力される。
以下の説明では、アプリケーションプログラムをアプリケーションと略記する。アプリケーション50は、音声認識システムを利用するコンピュータプログラムであり、例えば、ユーザにクイズを出題するプログラム、日常会話を楽しむプログラムのように構成することができる。アプリケーション50は、例えば、発話データ生成部などと呼ぶこともできる。
アプリケーション50が発話データとしての質問文を質問文設定部15に設定すると、その質問文の発話データは発話部141から出力されると共に、質問語尾抽出部16により解析される。
質問語尾抽出部16は「発話類型判定部」の一例であり、例えば、質問文の語尾に基づいて、その質問文が予め設定されている複数の質問語尾の類型のいずれに該当するかを判定する。質問語尾の類型は「質問類型」の一例である。また、質問語尾抽出部16は、質問文の有する複数の文節のうち、後半の文節に基づいて(特に最後の文節に基づいて)、類型を判定することができる。本実施例では、質問文の最後の文節を「語尾」として説明する。
なお、日本語での質問文を対象とする場合、文の最後に特徴が現れるため、語尾に着目するが、英語での質問文を対象とする場合は、文の先頭の語句、および文中の動詞などに基づいて類型を判別してもよい。言語ごとの特徴に応じて、質問文の類型を分けることができる。
辞書選択部17は、質問語尾抽出部16での判定結果(語尾の抽出結果)に基づいて、記憶部20に記憶された複数の辞書の中から所定の辞書を少なくとも一つ選択し、選択した辞書をアクティブ辞書格納部18に格納する。アクティブ辞書格納部18は、音声認識部12により使用される辞書を格納するための記憶領域である。音声認識部12は、アクティブ辞書格納部18に格納された辞書(選択された辞書)に基づいて音声を認識しようとするため、選択された辞書に載っていない言葉は認識することができない反面、選択された辞書に載っている言葉は高速かつ正確に認識することができる。なお、本実施例では、辞書データベースを辞書と略記する。
記憶部20は、例えば、RAM(Random Access Memory)、ハードディスクなどの記憶装置から構成される。記憶部20は、例えば、一般辞書21と、回答認識辞書22とを格納している。一般辞書21とは、通常の音声認識処理に使用する辞書であり、一般的な単語や語句を保持する。
回答認識辞書22とは、発話部141から音声出力される質問文に対するユーザの回答を認識するために使用する辞書である。従って、回答認識辞書22は、例えば、質問依存型辞書、質問に起因する辞書などと呼ぶこともできる。
回答認識辞書22は、複数の辞書221、222を備えている。基本回答認識辞書221は「基本回答辞書データベース」の一例であり、質問文一般に広く対応するための辞書である。質問語尾別回答認識辞書222は、質問語尾の種別(語尾の類型)に応じて用意されている。基本回答認識辞書221および各質問語尾別回答認識辞書222では、複数の回答種別ごとに回答例が設定されている。詳細は図2および図3で後述する。
図2は、基本回答認識辞書221の構成例を示す。基本回答認識辞書221は、質問語尾の種別を問わずに使用することができる。基本回答認識辞書221は、ユーザの回答を複数の種別に分類し、それら回答種別ごとに基本回答例を対応づけている。回答種別としては、例えば、肯定系回答、否定系回答、取消系回答、確認系回答がある。
肯定系回答とは、発話部141の出力した質問文に対する、ユーザの肯定的意思を示す回答種別である。肯定的回答の基本回答例としては、例えば「うん」「はい」「Yes」などがある。否定系回答とは、発話部141の出力した質問文に対する、ユーザの否定的な意思を示す回答種別である。否定的回答の基本回答例としては、例えば「ううん」「いいえ」「No」などがある。取消系回答とは、同様に、発話部141の出力した質問文に対する、ユーザの取消意思を示す回答種別である。取消系回答の基本回答例としては、例えば「やめて」「終了」「おしまい」などがある。確認系回答とは、同様に、発話部141の出力した質問文に対する、ユーザの確認意思を示す回答種別である。確認系回答の基本回答例としては、例えば「もう一度言って」「なに」「なんだって」などがある。
図3は、質問語尾別回答認識辞書222の構成例を示す。質問語尾別回答認識辞書222は、発話部141から出力する質問文の語尾に応じて選択される。図3では、説明の便宜上一つの辞書であるかのように示すが、実際には、質問語尾別の辞書として生成されており、質問の語尾別に選択可能である。図3に示す辞書の各行が質問語尾別回答認識辞書222に相当する。
質問語尾別回答認識辞書222は、質問語尾と、質問文に対するユーザ回答の種別毎の回答例(質問類型別回答例)とを対応づけて記憶する。回答種別は、基本回答認識辞書221で述べたと同様、「肯定系回答」「否定系回答」「取消系回答」「確認系回答」に設定されている。事前に定義した全ての回答種別について回答例を設定する必要はない。図3に示すように、肯定系回答と否定系回答のみに回答例を設定する構成でもよい。
質問語尾種別「食べましたか?」に対する肯定系回答の例は、「食べました」「食べたよ」「食べた」などである。否定系回答の例は、「食べてません」「食べてない」「食べない」である。
図示はしないが、取消系回答の例として、「ダイエット中」「お腹が減った」「嫌い」などのように、「〇〇を食べましたか?」という質問文の取消意思を含む可能性のある返事を設定してもよい。確認系回答の例として、「朝食」「ブランチ」「昼食」「夕食」「お菓子」「カロリー」などのように、前記質問文に関連してユーザが想起し、発する可能性のある返事を設定してもよい。
質問種別「していいですか?」に対する肯定系回答の例は、「していいよ」「いいよ」「してください」などである。否定系回答の例は、「しなくていいよ」「しないでいいよ」「しないで」などである。質問種別「しますか?」に対する肯定系回答の例は、「します」「しました」である。否定系回答の例は「しません」「しないよ」である。
質問種別「見ましたか?」に対する肯定系回答の例は、「見ました」「見たよ」などである。否定系回答の例は「見ていないよ」「見てないよ」などである。質問種別「思いますか?」に対する肯定系回答の例は、「思います」「思う」「思った」などである。否定系回答の例は、「思いません」「思わない」である。質問種別「変えますか?」に対する肯定系回答の例は、「変えます」「変える」「変えて」などである。
なお、基本回答認識辞書221に設定された回答例と、質問語尾別回答認識辞書222に設定された回答例とが一部一致する場合、基本回答認識辞書221と質問語尾別回答認識辞書222のいずれを優先するかは、予め設定することもできるし、開発者であるユーザが任意に指定することもできる。
例えば質問種別「終わりますか?」に対する肯定系回答の例として、「終了」が含まれている場合を考える。「終了」は、図2に示す基本回答認識辞書221の取消系回答の例にも含まれている。この場合、音声認識部12がユーザの音声を「終了」と認識したならば、各辞書221、222のうち優先度の高い方の辞書での回答種別が選択される。
なお、図2および図3に示す辞書221、222の構成は一例であって、図示の例に限定されない。より多くの質問種別および回答例を設定することもできる。また、回答種別も例示であって、上記以外の種別、例えば、ユーザが質問文に対して上の空で回答する「上の空系回答」などを追加する構成でもよいし、質問語尾別回答認識辞書222から取消系回答や確認系回答を除去する構成でもよい。
図4を用いて、音声認識システム1の全体動作を説明する。音声認識システム1には、アプリケーション開発スキルを有するユーザが作成したアプリケーション50を後から搭載することもできる。開発者であるユーザが搭載したアプリケーション50は、上述した音声認識システム1を利用し、一般ユーザに質問を投げかけて対話する。質問を一般ユーザに投げかけるアプリケーション50は、質問コミュニケーション型アプリケーション50と呼ぶこともできる。なお、一般ユーザとは、音声認識システム1を介してロボット2と対話するユーザである。以下、一般ユーザはユーザと呼び、開発者であるユーザは開発ユーザと呼ぶ。
アプリケーション50が起動する前の状態では、音声認識システム1は、一般辞書21を用いて通常の応答処理を行う(S10)。音声認識システム1は、ユーザからの音声指示に応じて、指定された機能を実行したり、ユーザと挨拶を交わしたりする。
ユーザがアプリケーション50の起動を指示すると(S11:Yes)、アプリケーション50が起動し、音声認識システム1は通常の応答処理から回答認識辞書22を用いた応答処理に移行する(S12)。
アプリケーション50が終了するまでの間(S13:No)、音声認識システム1は、回答認識辞書22を用いた応答処理を続行する。ユーザの明示の音声指示またはタイムアウト(図5のステップS23、S24参照)などでアプリケーション50が終了すると(S13:Yes)、音声認識システム1は、一般辞書21を用いた通常の応答処理に戻る(S10)。
本実施例では、質問型コミュニケーションを提供するアプリケーション50の起動中に、通常の応答処理から回答認識辞書22を用いた応答処理に切り替える(S12)。これに限らず、例えば、アプリケーション50から質問文設定部15に質問文を出力した直後の所定時間だけ回答認識辞書22を用いた応答処理に移行し、その後は通常の応答処理に戻る構成でもよい。この場合、例えば、図4に示すステップS11は「質問文が設定されたか?」となり、ステップS11でYesと判定したらステップS12に移り、ステップS11でNoと判定したらステップS10に戻る。そして、ステップS13では、例えば「質問文を設定してから所定時間経過したか?」を判定し、Yesと判定したらステップS10に戻り、Noと判定したらステップS12に戻る。このような構成も本発明の範囲に含まれる。
図5は、図4中にS12で示す回答認識辞書22を用いた応答処理の詳細を示すフローチャートである。
質問文設定部15がアプリケーション50から質問文を取得すると(S20)、質問語尾抽出部16は、質問文の語尾を抽出する。辞書選択部17は、抽出された語尾に対応する質問語尾別回答認識辞書222を選択して、アクティブ辞書格納部18に格納する(S21)。音声認識処理の開始前に、発話部141から発話される質問文に対応する質問語尾別回答認識辞書222が事前に選択されており、音声認識の準備が整っている。
音声認識部12は、一定時間、音声入力部11に音声が入力されるのを待つ(S22:No、かつ、S23:No)。一定時間の始期は、例えばアプリケーション50が質問文設定部15に発話データを設定した時点である。
一定時間が経過しても音声が入力されず、音声を認識できない場合(S22:No、かつ、S23:Yes)、タイムアウト制御が行われ(S24)、本処理は終了する。この結果、図4に示すステップS13ではアプリケーション終了と判定されて(S13:Yes)、ステップS10に戻る。
一定時間内に音声を認識した場合(S22:Yes)、応答処理部13は、その音声認識結果に応じて(S25)、肯定系回答の場合の応答制御(S26)、否定系回答の場合の応答制御(S27)、取消系回答の場合の応答制御(S28)、確認系回答の場合の応答制御(S29)のいずれかを実行する。
すなわち、ステップS22で認識された音声が、ステップS21で選択された質問語尾別回答認識辞書222に登録されている回答例のいずれかに一致する場合、応答処理部13は、その回答例の属する回答種別(肯定系、否定系、取消系、確認系)に応じた応答制御を実行する(S26〜S29)。
応答制御の具体的内容は、例えばアプリケーション50の用途や種類などによって種々相違する。例えば、ユーザの回答を認識したことを示す反応を最初にユーザに提示し、その次に具体的応答を行うようにしてもよい。具体的応答とは、例えば、「それは素晴らしい!もう一つ質問していいですか?」のような発話データを出力することである。これ以外の応答であってもよい。
ユーザの回答を認識したことをユーザに伝えるための最初の反応は、例えば、図6に示すように予め定義しておくことができる。図6に示す反応定義テーブル23は、図示はしないが記憶部20に格納しておくことができる。
反応定義テーブル23は、基本回答および各語尾別回答のそれぞれについて、回答種別ごとの「所定の反応」を定義している。基本回答とは、基本回答認識辞書221に登録されている基本回答例を示す。基本回答の種別ごとに反応が定義されている。例えば、肯定系回答の場合は「うなづいて、目を点滅させる」、否定系回答の場合は「首を左右に振り、泣き声を出す」のような反応である。
語尾別回答とは、質問語尾別回答認識辞書222に登録されている質問語尾別回答例を示す。基本回答で述べたと同様、語尾別回答の種別ごとに反応が定義されている。語尾別回答の反応と基本回答の反応とは一致してもよいし、異なってもよい。また、質問語尾別回答認識辞書222に回答例の設定されていない回答種別については、反応を定義する必要はない。
図7は、図5中にステップS21で示す質問の語尾に応じた辞書を選択する処理の詳細を示すフローチャートである。
辞書選択部17は、質問語尾抽出部16の抽出した質問語尾を取得し(S30)、その質問語尾に一致する質問語尾別回答認識辞書222を検索する(S31)。辞書選択部17は、質問語尾の一致する質問語尾別回答認識辞書222を発見すると(S32:Yes)、その質問語尾別回答認識辞書222を選択し(S33)、アクティブ辞書格納部18に格納する。さらに、辞書選択部17は、基本回答認識辞書221を選択し(S34)、アクティブ辞書格納部18に格納する。
従って、音声認識部12は、ステップS33で選択された質問語尾別回答認識辞書222と、ステップS34で選択された基本回答認識辞書221との2つの辞書を用いて、音声入力部11に入力されたユーザ音声を認識することができる。
2つの辞書221、222を利用可能な場合、複数の使い方が考えられる。第1の方法は、2つの辞書221、222を同時に使用する方法である。第2の方法は、質問語尾別回答認識辞書222を先に使用して音声認識処理を行い、認識できなかった場合に基本回答認識辞書221に切り替える方法である。第3の方法は、先に基本回答認識辞書221を使用して音声認識処理を行い、認識できなかった場合に質問語尾別回答認識辞書222に切り替える方法である。いずれの方法を採用してもよい。アプリケーションの作成時に、開発ユーザが第1〜第3の方法のいずれかを選択できるようにしてもよい。
辞書選択部17は、質問文設定部15に設定された質問文の語尾に一致する質問語尾別回答認識辞書222を発見できない場合(S32:no)、ステップS33をスキップして、基本回答認識辞書221だけを選択し(S34)、アクティブ辞書格納部18に格納する。これにより、質問文に対応する質問語尾別回答認識辞書222を発見できなかった場合でも、音声認識部12は、基本回答認識辞書221を用いて音声を認識することができる。
このように構成される本実施例によれば、アプリケーション50が質問文を発話させる場合に、ユーザの回答が入力されるよりも前に、質問文に対応する回答認識辞書22を選択して音声認識処理の準備を整えることができる。音声認識部12は、用意された回答認識辞書22を使用して、ユーザの回答を認識することができる。
回答認識辞書22は、質問に対するユーザの回答例を有しているため、音声認識の精度を高くすることができる。回答認識辞書22は、ユーザが発する可能性の高いと考えられる語句を保持しており、ユーザの発する可能性の低い語句は保持していないため、誤認識の生じる可能性が低下し、音声認識システム1の信頼性が向上する。
回答認識辞書22に登録する語句は制限されているため、一般辞書21を使用する場合に比べて、音声認識部12の検索処理範囲を小さくできる。従って、音声認識に要する時間を短縮でき、滑らかな対話を実現することができる。
もしも質問文に対応する質問語尾別回答認識辞書222が見つからない場合でも、音声認識部12は基本回答認識辞書221を用いて音声認識処理を行うことができる。従って、ユーザの回答に広く対応することができ、音声認識システム1の信頼性、使い勝手が向上する。
図8および図9を用いて第2実施例を説明する。本実施例を含む以下の各実施例は第1実施例の変形例に該当するため、第1実施例との相違を中心に説明する。本実施例では、開発ユーザがアプリケーション50を作成する場合を説明する。
図8は、開発ユーザの使用するコンピュータ5が音声認識システム1に接続されている様子を示すブロック図である。開発ユーザは、アプリケーション開発環境を有するコンピュータ5を用いてアプリケーション50を作成し、作成したアプリケーション50を音声認識システム1に記憶させることができる。
図9は、アプリケーション50で使用する質問文および該質問文に対する応答を作成する様子を示すフローチャートである。開発ユーザは、コンピュータ5を用いて、アプリケーション50で使用する質問文を作成する(S40)。さらに、開発ユーザは、コンピュータ5を用いて、ステップS40で作成した質問文に対する回答種別ごとの応答(肯定系回答の応答内容、否定系回答の応答内容など)を作成する(S41)。開発ユーザは、作成した質問文および応答を音声認識システム1の記憶部20に登録する(S42)。
図9に示すプログラム例P1は、本発明の実施形態により得られるプログラムの概略を示す。開発ユーザは、質問文「朝食を食べましたか?」を定義し、さらに、その質問文に対するユーザ回答の種別ごとに応答内容を定義するだけでよい。基本的な質問文のパターンとその質問文のパターンに対応する回答例とは、音声認識システム1が備えているため、開発ユーザは、ユーザ回答の音声認識処理まで考慮する必要がない。
これに対し、本実施形態を適用しない場合のプログラム例P2では、開発ユーザは、ユーザの回答種別ごとに、ユーザの回答例を複数想定する必要がある。しかし、ユーザの発した回答とそれが実際に音声認識されたときの音とは相違する場合がある。例えば、「ハイ」という回答が「アイ」や「ファイ」のように認識される場合がある。従って、開発ユーザは、そのような認識の揺れも考慮して回答例を一つずつ定義する必要があり、アプリケーション50の開発に手間がかかる。開発ユーザの音声認識処理に関する経験が浅い場合、ユーザの回答を認識できない可能性が増し、信頼性が低下する。
このように構成される本実施例も第1実施例と同様の作用効果を奏する。さらに、本実施例では、基本回答認識辞書221および各質問語尾別回答認識辞書222を事前に用意しており、ユーザに投げかける質問文に応じた回答認識辞書221、222を自動的に選択して、質問文に対するユーザの回答を認識する。従って、開発ユーザは、ユーザ回答の音声認識について考慮する必要がなく、アプリケーション開発の手間を軽減することができる。アプリケーション開発の手間が軽減され、容易に開発可能となるため、多くの開発ユーザによって多数のアプリケーション50が開発され、音声認識システム1の価値が向上する。
図10を用いて第3実施例を説明する。本実施例では、図5中のステップS21の変形例を説明する。
本実施例の辞書選択部17は、質問文設定部15に設定された質問文の語尾に一致する質問語尾別回答認識辞書222を発見できなかった場合(S32:No)、質問文の含む動詞等に着目して、質問語尾別回答認識辞書222に一致する辞書があるか検索する(S35)。
例えば、質問文が「朝食をちゃんと摂った?」であり、語尾「とった?」に対応する質問語尾別回答認識辞書222が用意されていないと仮定する。この場合、辞書選択部17は、例えば、類義語辞書を用いて「摂った」から「食べた」を取得し、「食べた」に対応する質問語尾別回答認識辞書222を検索する。
最初の質問文の語尾から連想できる他の語尾に一致する質問語尾別回答認識辞書222が見つかった場合(S36:yes)、辞書選択部17は、その一致する辞書222を選択し(S33)、アクティブ辞書格納部18に格納する。
最初の質問文の語尾から連想できる他の語尾に一致する質問語尾別回答認識辞書222が見つからない場合(S36:No)、辞書選択部17は、基本回答認識辞書221を選択して(S34)、アクティブ辞書格納部18に格納する。
このように構成される本実施例も第1実施例と同様の作用効果を得ることができる。さらに、本実施例では、音声認識システム1に登録されていない種類の質問文がアプリケーション50から設定された場合でも、その質問文の回答を処理するのに役立つ可能性のある質問語尾別回答認識辞書222を選択することができる。従って、広範囲の質問文に対応してユーザ回答を認識することができ、使い勝手および信頼性が向上する。
なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。
1:音声認識システム、2:ロボット、3:携帯情報端末、4:車両、11:音声入力部、12:音声認識部、13:応答処理部、14:制御部、15:質問文設定部、16:質問語尾抽出部、17:辞書選択部、18:アクティブ辞書格納部、20:記憶部、21:一般辞書、22:回答認識辞書、221:基本回答認識辞書、222:質問語尾別回答認識辞書

Claims (8)

  1. 音声を認識して応答する音声認識システムであって、
    入力された発話データを音声に変換して出力する音声出力部と、
    前記音声出力部に入力される前記発話データの類型を判定する発話類型判定部と、
    前記発話類型判定部の判定結果に基づいて、予め記憶部に記憶された複数の辞書データベースの中から所定の辞書データベースを選択する辞書選択部と、
    音声入力部から入力された音声を前記辞書選択部が選択した前記所定の辞書データベースを用いて認識する音声認識部と、
    を備える音声認識システム。
  2. 前記発話データは質問文であり、
    前記複数の辞書データベースには、質問文一般に対して適用可能な基本回答辞書データベースが含まれており、
    前記基本回答辞書データベースは、予め設定された複数の回答種別ごとに基本回答例を対応づけており、
    前記辞書選択部は、前記所定の辞書データベースの一つとして前記基本回答辞書データベースを少なくとも選択する、
    請求項1に記載の音声認識システム。
  3. 前記複数の辞書データベースには、予め設定された複数の質問類型ごとにそれぞれ用意された質問類型別辞書データベースがさらに含まれており、
    前記発話類型判定部は、前記発話データと前記複数の質問類型とを比較することで、前記発話データが前記各質問類型のいずれに該当するかを判定し、
    前記辞書選択部は、前記各質問類型別辞書データベースの中から前記発話データに対応する質問類型を有する質問類型別辞書データベースを前記所定の辞書データベースの一つとして選択する、
    請求項2に記載の音声認識システム。
  4. 前記各質問類型別辞書データベースは、前記質問類型に対応する質問類型別回答例を回答種別毎に予め用意することで構成されている、
    請求項3に記載の音声認識システム。
  5. 前記回答種別毎に所定の反応が予め設定されており、前記音声認識部による音声認識結果として検出された回答種別に対応する所定の反応を示す反応制御情報を出力する、
    請求項1〜4のいずれかに記載の音声認識システム。
  6. 前記発話データを前記音声出力部に入力する発話データ入力部をさらに備え、かつ、前記複数の辞書データベースには、通常の音声認識処理に使用するための一般辞書データベースが含まれており、
    前記発話データ入力部が前記音声出力部に前記発話データを入力する前の状態では、前記前記音声認識部は、前記一般辞書データベースを用いて、前記音声入力部から入力された音声を認識し、
    前記発話データ入力部が前記音声出力部に前記発話データを入力する状態では、前記辞書選択部が選択した前記所定の辞書データベースを用いて、前記音声入力部から入力された音声を認識する、
    請求項1〜5のいずれかに記載の音声認識システム。
  7. 音声を認識して応答する音声認識システムの制御方法であって、
    音声出力部に入力される発話データの類型を判定し、
    前記判定結果に基づいて、予め記憶された複数の辞書データベースの中から所定の辞書データベースを選択し、
    音声入力部から入力された音声を前記所定の辞書データベースを用いて認識する、
    音声認識システムの制御方法。
  8. コンピュータを音声認識システムとして機能させるためのコンピュータプログラムであって、
    前記コンピュータに、
    音声出力部に入力される発話データの類型を判定させ、
    前記判定結果に基づいて、予め記憶された複数の辞書データベースの中から所定の辞書データベースを選択させ、
    音声入力部から入力された音声を前記所定の辞書データベースを用いて認識させる、ためのコンピュータプログラム。
JP2013228677A 2013-11-01 2013-11-01 音声認識システムおよび音声認識システムの制御方法 Active JP6258002B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013228677A JP6258002B2 (ja) 2013-11-01 2013-11-01 音声認識システムおよび音声認識システムの制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013228677A JP6258002B2 (ja) 2013-11-01 2013-11-01 音声認識システムおよび音声認識システムの制御方法

Publications (2)

Publication Number Publication Date
JP2015087728A true JP2015087728A (ja) 2015-05-07
JP6258002B2 JP6258002B2 (ja) 2018-01-10

Family

ID=53050536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013228677A Active JP6258002B2 (ja) 2013-11-01 2013-11-01 音声認識システムおよび音声認識システムの制御方法

Country Status (1)

Country Link
JP (1) JP6258002B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181442A (ja) * 2003-12-16 2005-07-07 Fuji Electric Holdings Co Ltd 音声対話装置、その方法、プログラム
JP2006251545A (ja) * 2005-03-11 2006-09-21 Fujitsu Ltd 音声対話システム及びコンピュータプログラム
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
JP2008233345A (ja) * 2007-03-19 2008-10-02 Toshiba Corp インタフェース装置及びインタフェース処理方法
JP2009244815A (ja) * 2008-03-31 2009-10-22 Kenwood Corp 対話システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181442A (ja) * 2003-12-16 2005-07-07 Fuji Electric Holdings Co Ltd 音声対話装置、その方法、プログラム
JP2006251545A (ja) * 2005-03-11 2006-09-21 Fujitsu Ltd 音声対話システム及びコンピュータプログラム
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
JP2008233345A (ja) * 2007-03-19 2008-10-02 Toshiba Corp インタフェース装置及びインタフェース処理方法
JP2009244815A (ja) * 2008-03-31 2009-10-22 Kenwood Corp 対話システム

Also Published As

Publication number Publication date
JP6258002B2 (ja) 2018-01-10

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11823659B2 (en) Speech recognition through disambiguation feedback
US20210392395A1 (en) Systems and methods for routing content to an associated output device
US11302302B2 (en) Method, apparatus, device and storage medium for switching voice role
US11004444B2 (en) Systems and methods for enhancing user experience by communicating transient errors
JP6570651B2 (ja) 音声対話装置および音声対話方法
EP3365890B1 (en) Learning personalized entity pronunciations
US11605374B2 (en) Method and device for providing voice recognition service
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
JP6392374B2 (ja) ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
JP7036015B2 (ja) 対話制御装置および方法
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
CN109326284A (zh) 语音搜索的方法、装置和存储介质
US11694682B1 (en) Triggering voice control disambiguation
JP6258002B2 (ja) 音声認識システムおよび音声認識システムの制御方法
KR20200107057A (ko) 음성 인식 모델에서 사용되는 언어를 확장시키는 방법 및 음성 인식 모델을 포함하는 전자 장치
KR20220086265A (ko) 전자 장치 및 전자 장치의 동작 방법
KR20220118818A (ko) 전자 장치 및 전자 장치의 동작 방법
US20210056973A1 (en) Contextual voice-based presentation assistance
KR20200101103A (ko) 사용자 입력을 처리하는 전자 장치 및 방법
US11922127B2 (en) Method for outputting text in artificial intelligence virtual assistant service and electronic device for supporting the same
KR101983031B1 (ko) 언어 교육 방법 및 언어 교육 시스템
KR20220120934A (ko) 음성 명령 처리 장치 및 방법
KR20230045333A (ko) 전자 장치 및 전자 장치의 동작 방법
KR20220137437A (ko) 전자 장치 및 전자 장치의 동작 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171206

R150 Certificate of patent or registration of utility model

Ref document number: 6258002

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250