JP2013020220A - 音声認識装置、自動応答方法及び、自動応答プログラム - Google Patents

音声認識装置、自動応答方法及び、自動応答プログラム Download PDF

Info

Publication number
JP2013020220A
JP2013020220A JP2011168751A JP2011168751A JP2013020220A JP 2013020220 A JP2013020220 A JP 2013020220A JP 2011168751 A JP2011168751 A JP 2011168751A JP 2011168751 A JP2011168751 A JP 2011168751A JP 2013020220 A JP2013020220 A JP 2013020220A
Authority
JP
Japan
Prior art keywords
data
response
voice
strictness
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011168751A
Other languages
English (en)
Other versions
JP5834291B2 (ja
Inventor
Keiichiro Higuchi
惠一郎 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HIGHWARE CO Ltd
Original Assignee
HIGHWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HIGHWARE CO Ltd filed Critical HIGHWARE CO Ltd
Priority to JP2011168751A priority Critical patent/JP5834291B2/ja
Publication of JP2013020220A publication Critical patent/JP2013020220A/ja
Application granted granted Critical
Publication of JP5834291B2 publication Critical patent/JP5834291B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識での応答を行う際に、正解の厳密度を調整することが可能な音声認識装置、自動応答方法及び、自動応答プログラムを提供する。
【解決手段】ユーザから音声入力された音声データをテキスト化する音声端末10であって、ユーザの応答を正解とするか否かの判断基準となる厳密度と、ユーザの応答である応答データに対して、厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶しておく。そして、質問を出力し、ユーザからの音声による応答データを受付け、応答データと予め記憶された回答データとをテキスト文字で比較し、応答データが正解か否かを判断して結果データを出力する際に、厳密度に基づいて結果データを出力する。
【選択図】図2

Description

本発明は、音声入力が可能な情報端末を利用した音声認識装置、自動応答方法及び、自動応答プログラムに関する。
近年、スマートフォン等の情報端末に対する入力方法として、タッチパネルやボタン操作のみならず、ユーザがスマートフォンに対して、音声を発することで、入力を行う方法が知られている。手が不自由な場合や、指差し操作で入力が困難なユーザには、メリットが大きい。
例えば、クイズゲームのように、ゲーム装置が問題を出力して、プレイヤーが音声により回答する技術が知られている(例えば、特許文献1)。この場合、音声認識を利用して問題の正解を判断する。
特開2002−159741号公報
しかしながら、音声入力は発話者によって言い方に違いがあるため、テキストデータに変換する際の認識率が問題になる場合が多い。そのため、キー入力に比べると、その正確性に失望し音声入力を行わなくなるという課題がある。したがって、認識対象の言葉にある程度の幅を設けておくことが必要となる。
一方、失語症のリハビリテーションでは、言葉を口から発することで、人は健康になれるという全体構造法と呼ばれる考え方がある。すなわち、言語(話し言葉)を口から発声することで、聴覚、触覚、視覚、運動感覚、自己受領感覚等が最適に機能するという考え方である。このようなリハビリテーションを行っている患者が、音声認識装置を利用した場合、音声認識の正解を厳密に実行すると、患者にとっては、酷な結果となってしまう場合がある。例えば、発声そのものが練習である患者に、「あ」ではなく「や」と発声してしまい、不正解であると判断すると、その患者は、やる気を失い、モチベーションを維持できなくなる場合がある。
本発明は、このような課題に鑑み、音声認識での応答を行う際に、正解の厳密度を調整することが可能な音声認識装置、自動応答方法及び、自動応答プログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
第1の特徴に係る発明は、ユーザから音声入力された音声データをテキスト化する音声認識装置であって、質問を出力し、前記ユーザからの音声による応答データを受付ける音声入力モジュールと、前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶する厳密度記憶モジュールと、前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶する回答データ記憶モジュールと、前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力する結果データ出力モジュールと、を備える音声認識装置を提供する。
第1の特徴に係る発明によれば、ユーザから音声入力された音声データをテキスト化する音声認識装置であって、予め、ユーザの応答を正解とするか否かの判断基準となる厳密度と、ユーザの応答である応答データに対して厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶しておく。そして、質問を出力し、ユーザからの音声による応答データを受付けて、応答データと予め記憶された回答データとをテキスト文字で比較し、応答データが正解か否かを判断して結果データを出力する際に、厳密度に基づいて結果データを出力する。
したがって、質問を出題し、ユーザから音声入力された音声データを、その質問に対する応答とした場合に、正解か否かの厳密度を調整して、結果を出力することが可能である。
第1の特徴に係る発明は、発明のカテゴリにおいてシステムのみならず、方法、プログラムにおいても同様の作用・効果を奏する。
第2の特徴に係る発明によれば、第1の特徴に係る発明において、さらに、厳密度毎に異なる一以上の回答データを、回答に完全一致した回答データに基づいて、形態素解析により自動生成する音声認識装置を提供する。
したがって、応答の厳密度を調整して正解とする際に、一以上の回答データを事前に準備する必要があるが、この回答データを音声認識装置が自動的に生成することが可能である。
本発明によれば、音声認識での応答を行う際に、正解の厳密度を調整することが可能な音声認識装置、自動応答方法及び、自動応答プログラムを提供することができる。
図1は、自動応答システム1の構成図である。 図2は、音声認識サーバ100、音声端末10の機能ブロック図である。 図3は、音声認識サーバ100、音声端末10が実行する基本応答処理を示すフローチャートである。 図4は、厳密度&回答データ対応テーブルの例1を示す図である。 図5は、厳密度&回答データ対応テーブルの例2を示す図である。 図6は、回答データ生成処理のフローチャートである。 図7は、音声端末10に表示される画面イメージ図(日本語学習1)である。 図8は、音声端末10に表示される画面イメージ図(日本語学習2)である。 図9は、音声端末10に表示される画面イメージ図(日本語学習3)である。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[自動応答システムのシステム構成]
図1は、本発明の好適な実施形態である自動応答システム1のシステム構成図である。自動応答システム1(音声認識装置)は、音声端末10a、10b(以下、単に「10」とする)、音声認識サーバ100、コンテンツダウンロードサーバ200、210、公衆回線網3(例えば、インターネット網や第3世代、第4世代通信網など)から構成される。
音声端末10は、音声入力が可能な端末であって、無線通信により基地局と電波を交信し、基地局から交換機に接続して、公衆回線網3に接続されている、そして、公衆回線網3を介して、音声認識サーバ100と通信可能に接続されている。音声認識サーバ100は、LAN(Local Area Network)で接続されていてもよいし、公衆回線網3を介して接続されていてもよい。自動応答システム1内の通信は、無線通信、有線通信を問わない。音声端末10が公衆回線網3と接続するために、ルータ等のネットワーク機器を介して通信可能であってよい。
音声端末10は、ユーザがサポートを受けるための一般的な情報端末であってよく、後述する機能を備える情報機器や電化製品である。音声端末10は、例えば、スレート端末10a、スマートフォン10b、携帯電話、複合型プリンタ、テレビ、ルータ又はゲートウェイ等のネットワーク機器、コンピュータに加えて、冷蔵庫、洗濯機等の白物家電であってもよいし、電話機、ネットブック端末、電子書籍端末、電子辞書端末、携帯型音楽プレーヤ、携帯型コンテンツ再生・録画プレーヤ等の一般的な情報家電であってよい。
音声認識サーバ100は、音声端末10に入力された音声をテキスト化する装置である。コンテンツダウンロードサーバ200、210は、音声端末10にて実行される音声応答アプリケーションのコンテンツが記憶された装置である。コンテンツは、音声応答アプリケーションで出題する問題と回答から構成されるデータである。音声端末10は、このコンテンツを各コンテンツダウンロードサーバ200、210からダウンロードして実行する。
[各機能の説明]
図2は、音声認識サーバ100、音声端末10の機能ブロックと各機能の関係を示す図である。図2を参照して、各装置のハードウェア構成について機能ブロック図を用いて説明する。
音声端末10は、ユーザから入力された音声によって応答を行う音声応答アプリケーションが実行される端末である。音声端末10は、制御部11、データ記憶部12、データ通信部13、音声入力部14、表示又は音声出力部15を備えていれば、家庭用電化製品、業務用電化製品、携帯端末、業務用端末のいずれであってもよい。
制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備え、データ通信部13として、WiFi(Wireless Fidelity)対応デバイス等を備える(有線によるLAN接続であってもよい)。さらに、データ記憶部12として、HDD(Hard Disk Drive)等を備える。さらに、音声入力部14として、マイク、アンプを備え、表示又は音声出力部15として、画像を表示する液晶モニタ等の表示部と、スピーカを備える。さらに、ユーザからの入力を受付けるキーボードやタッチパネル、音声入力等のタッチパネル入力部を備えてもよい。
制御部11と音声入力部14とのハードウェアの協働により、ソフトウェア的な音声入力モジュール21を実現する。制御部11とデータ通信部13とのハードウェアの恊働によりソフトウェア的な音声認識モジュール22を実現する。制御部11と表示又は音声出力部15とのハードウェアの恊働によりソフトウェア的な結果データ出力モジュールを実現する。制御部11とデータ記憶部12とのハードウェアの恊働により、ソフトウェア的な回答データ記憶モジュール24と厳密度記憶モジュール25を実現する。
音声入力モジュール21は、音声端末10で実現されるが、音声端末10単独で音声のテキスト化ができない場合は、音声認識サーバ100の音声テキスト変換モジュール2001を含んでもよい。
音声認識サーバ100は、制御部101、音声テキストデータベース102、データ通信部103を備える。
制御部101は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備え、データ通信部103として、有線又は無線対応の通信デバイスを備え、音声テキストデータベース102として、HDD(Hard Disk Drive)、SSD(Solid State Drive)等のいずれか又は双方を備える。
制御部101とデータ通信部103とのハードウェアの協働により、ソフトウェア的な音声テキスト変換モジュール201を実現する。
コンテンツダウンロードサーバ200、210は、音声認識サーバ100と同様のハードウェア構成であってよいので、説明を省略する。
[基本応答処理]
図3は、音声端末10、音声認識サーバ100が実行するサーバ型制御処理のフローチャートである。以下では、音声認識アプリケーションが、音声認識サーバ100との連携で音声端末10にて動作する実施例で説明するが、音声テキスト変換モジュール201が音声端末10で実現されて、音声端末10単体で処理が実行されてもよい。
前提として、音声端末10には、音声応答アプリケーションがインストールされている。そして、このアプリケーションがコンテンツダウンロードサーバ200、210にアクセスして、コンテンツをダウンロードする。音声応答アプリケーションは、問題と回答から構成されたコンテンツを実行可能なアプリケーションである。音声応答アプリケーションは、この問題に対して、ユーザの応答を回答と比較して結果を出力する。
最初に、この音声端末10を使用するユーザ又は管理者が、音声応答アプリケーションの厳密度を設定する(ステップS01)。厳密度とは、回答と応答を比較した際に、正解とするか不正解とするかを判断する際の基準である。厳密度については、図4、図5を用いて後述する。ここでは、例えば、図4の厳密度&回答データ対応テーブルの「レベル」を「0」から「10」までの何れかに設定する。レベルの番号が上がるほどに、正解の厳密度が高くなる。
次に、音声端末10は、ユーザから音声応答アプリケーションの開始要求を受付ける(ステップS02)。この開始要求とは、音声応答アプリケーションのアイコンを選択したことであってよい。音声端末10は、ユーザから音声応答アプリケーションの開始要求を受付けた(ステップS02:「YES」)場合には、ステップS03に処理を移す。音声端末10は、ユーザから音声応答アプリケーションの開始要求を受付けるまで(ステップS02:「NO」)は、処理待ちとなる。
次に、音声端末10は、質問データを出力する(ステップS03)。質問データとは、コンテンツを構成する質問に関するデータである。図7は、音声端末10に日本語学習コンテンツを表示出力したイメージ図である。例えば、図7に示すように、日本語学習のコンテンツでは、「「あたたかい」の逆の言葉は?」が、質問データである。質問データの出力は、画面表示による出力であってよいが、音声による出力であってもよい。
次に、音声端末10は、ユーザから、質問データに対する応答となる音声入力を受付ける(ステップS04)。例えば、図7に示すように、音声端末10の表示部にマイクのマークと「お話ください」と文字が表示されることで、ユーザの発声を促す。音声端末10は、音声入力があったと判断した場合(ステップS04:「YES」)には、ステップS05に処理を移す。音声端末10は、音声入力があるまで(ステップS04:「NO」)は、処理待ちとなる。
そして、音声端末10は、入力された音声データを音声認識サーバ100に送信する(ステップS05)。音声認識サーバ100は、音声テキストデータベース102を利用して音声データをテキスト化する(ステップS06)。
音声認識サーバ100からの応答が来るまでに、音声端末10は、回答データ生成処理を実行してもよい(ステップS07)。回答データ生成処理は、図6にて説明する処理であって、厳密度&回答データ対応テーブルが音声端末10に記憶されていないときに実行される処理である。
ここでは、厳密度&回答データ対応テーブルが音声端末10に記憶されているとして説明する。すなわち、この場合は、音声端末10は、回答データ生成処理を実行しない。
次に、音声認識サーバ100は、送信された音声データをテキスト化して、これを応答データとして、音声端末10に送信する(ステップS08)。
音声端末10は、送信された応答データを受信して、応答データと厳密度&回答データ対応テーブル内の回答データを比較する(ステップS09)。この際に、予め設定された厳密度に基づいて、回答データが選択される。
厳密度&回答データ対応テーブルは、ユーザが入力した応答データが、正解であるか否かを判断するテーブルである。例えば、質問に対して、完全一致する場合の回答が「ずっきーにのぱすた」であるとする。この場合は、厳密度が一番高いレベル10では、完全一致が正解の条件となるので、「ずっきーにのぱすた」が正解となる。これに対して、厳密度のレベルが0の場合は、回答データが「ANY」となっており、これは、ユーザからの応答データが何であっても、入力があれば全て正解とする厳密度である。このレベル10から0までの正解か否かを判断するチェック項目がレベルごとに定められている。
例えば、レベル1では、「すっきーにのぱすた」の1文字でも応答データに含まれていれば正解とする。レベル2では、「すっきーにのぱすた」の連続した2文字が適合すれば正解とする。
次に、音声端末10は、予め定められた厳密度に基づいて結果データを選択し(ステップS10)、選択した結果データを出力する(ステップS11)。結果データとは、応答データが正解又は不正解であることをユーザに知らせるためのデータであって、画像や文字であってもよいし、音や音声であってもよい。図8は、音声端末10に日本語学習コンテンツを表示出力したイメージ図である。例えば、図8に示すように、日本語学習のコンテンツでは、「「さむい」ですね!正解です!」が、結果データである。
なお、図8の例で説明すると、この日本語学習コンテンツでは、厳密度のレベルをレベル2と予め設定していたとする。この場合に、テキスト化された応答データが「さむ」であったとする。この場合、完全一致の回答データは「さむい」であるが、レベル2に予め設定されているため、厳密度&回答データ対応テーブルを参照して、連続2文字が適合するため、正解を表示する結果データが選択される。
一方、厳密度がレベル4に設定されている場合に、テキスト化された応答データが「さむ」であったとする。この場合、レベル4では、連続2文字が適合したのみでは、正解ではないため、図9の例で説明すると、厳密度&回答データ対応テーブルを参照して不正解を表示する結果データが選択される。
なお、結果データは、正解、不正解という2択の選択肢に対する結果に限られず、所定の言葉を言うと、所定の言葉を返すように2つ以上の選択肢に対応する結果データであってよい。
なお、基本応答処理のステップS06の処理が、音声端末10で実行されてもよい。この場合は、音声端末10が音声をテキスト化するためのデータベースである音声テキストデータベース102を有し、ステップS05、ステップS08が実行されない。
[回答データ生成処理]
次に、基本応答処理のステップS07の回答データ生成処理について説明する。ここでは、回答データ生成処理を音声端末10が実行する場合について説明するが、音声認識サーバ100や他のサーバが実行し、結果となる厳密度&回答データ対応テーブルを生成してもよい。
最初に、音声端末10に対して、コンテンツダウンロードサーバ200、210からダウンロードされた回答(完全一致の回答)を入力する(ステップS20)。これに応じて、音声端末10は、回答データの形態素解析を行って、自然言語処理を行う。そして、自然言語処理を行った文字をひらがなに変換する(ステップS22)。次に、厳密度のレベル1から9までの回答データを生成する処理を順次行う(ステップS22からステップS31)。
最初に、音声端末10は、レベル1の処理として1文字適合の回答データを生成する(ステップS23)。1文字適合の回答データは、ステップS22までに行った、ひらがな変換された回答データを文字毎に切断して、この切断した文字全てを1文字適合の回答データとする。図4の例では、「えがおがすてきだね」を「え」、「が」、「お」、「が」、「す」、「て」、「き」、「だ」、「ね」とする回答データを生成する処理である。
次に、音声端末10は、レベル2の処理として連続2文字適合の回答データを生成する(ステップS24)。これは、レベル1の処理で生成した1文字適合の1文字で構成される回答データを文字の順番毎に2文字づつ接続して生成する。図4の例では、「えがおがすてきだね」を「えが」、「がお」、「おが」、「がす」、「すて」、「てき」、「きだ」、「だね」とする回答データを生成する処理である。
次に、音声端末10は、レベル3の処理としてメインワード適合の回答データを生成する(ステップS25)。メインワードとは、完全一致回答データのうち言語辞書に掲載されている文字列を抽出して、抽出された文字列をメインワードとする。例えば、「えがおがすてきだね」は、「えがお」、「すてき」が意味がある言語として抽出されるため、これらの文字列をメインワードとする。このメインワード以外の違いは、レベル3では無視することとして、正解とする。したがって、回答データをメインワードである「えがお」、「すてき」と生成して、応答データにこれらのメインワードが含まれるか否かで、正解であるかを判断する。
なお、メインワードの抽出としては、メインワードではない文字列をメインワードとしてしまうノイズの生成を抑えるために、完全一致する回答データを出題者から漢字入力やカタカナ入力させてもよい。例えば、上述の例では、「えがお」、「すてき」以外にも「がす」、「てき」などもメインワードとして抽出されるおそれがある。そこで、漢字によりメインワードを判別すれば、「が素敵だ」から、「がす」、「てき」はメインワードとして抽出されないですむ。
次に、音声端末10は、レベル4の処理として濁音、半濁音の違いを考慮した回答データを生成する(ステップS26)。すなわち、完全一致する回答データに濁音、半濁音が含まれる場合に、これらの濁音、半濁音を静音に変換した回答データを生成する。例えば、完全一致した回答データが「えがおがすてきだね」では、「えかおかすてきたね」や変換部分を組み合わせた「えがおかすてきだね」等を回答データとして生成する。すなわち、濁音や半濁音が音声認識できず、テキスト化において静音で認識されても、正解とする。
次に、音声端末10は、レベル5の処理として助詞、語尾の有無適合を考慮した回答データを生成する(ステップS27)。すなわち、形態素解析した結果から、助詞や語尾を抽出し、この助詞が変換されたり、無い場合の文字列を回答データとする。例えば、完全一致した回答データが「えがおがすてきだね」の場合は、「えがおすてきだね」、「えがおはすてきだね」、「えがおがすてき」を、このレベルの回答データとして、これらの応答データであっても正解とする。
次に、音声端末10は、レベル6の処理として伸ばし、同音異字適合を考慮した回答データを生成する(ステップS28)。すなわち、「じ」と「ぢ」、「ず」と「づ」は、同音であるが、字が異なる。また、「きー」と、伸ばしを使用した表記と、「きい」と子音の後にその子音の母音を入れる表記は、ほとんど同じ音であるが、異なる表記をする。したがって、これらの相互が入れ替わっていても正解とする回答データを生成する。例えば、「ずっきーにのぱすた」では、「づっきーにのぱすた」であっても正解であるし、「ずっきいにのぱすた」であっても正解となる。また、伸ばしは、母音を繰り返す場合に、例えば、「おー」と「おお」は表記が異なるが、相互に入れ替えても正解としてよい。
次に、音声端末10は、レベル7の処理として撥音、拗音適合を考慮した回答データを生成する(ステップS29)。すなわち、撥音や拗音がなかったり、小さい「っ」が「つ」と表記されていても正解とする回答データを生成する。例えば、「ずっきーにのぱすた」は、「ずつきーにのぱすた」、「ずきーにのぱすた」であっても正解とする回答データを生成する。
次に、音声端末10は、レベル8の処理としてメインワードを考慮した回答データを生成する(ステップS30)。これは、ステップS25とは異なり、メインワード以外の1文字が異なる回答データを生成する。例えば、「えがおがすてきだね」では、「えがおがすてきらね」も正解とする回答データを生成する。
最後に、音声端末10は、レベル9の処理として英数字、漢字を考慮した回答データを生成する(ステップS31)。これは、英数字や漢字、カタカナ、かな等の相互の入替えがあっても正解とする回答データを生成する。例えば、「えがおがすてきだね」では、「笑顔がステキだね」でも、「A顔が素敵だね」でも正解とするため、これらの組み合わせを回答データとして生成する。
音声端末10は、これらの生成された回答データを厳密度毎に、厳密度&回答データ対応テーブルに格納する。
なお、上述の説明では、音声認識の対象となる言語を日本語として説明したが、言語の種類を問わずに本実施例は適用可能である。すなわち、英語、中国語、韓国語、ロシア語でいずれの言語であっても、厳密度が設定可能であることから、音声応答アプリケーションを構築可能である。
上述した手段、機能は、コンピュータが、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、コンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し記憶して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記憶装置(記録媒体)に予め記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。
以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 自動応答システム、3 公衆回線網、10 音声端末、100 音声認識サーバ

Claims (4)

  1. ユーザから音声入力された音声データをテキスト化する音声認識装置であって、
    質問を出力し、前記ユーザからの音声による応答データを受付ける音声入力モジュールと、
    前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶する厳密度記憶モジュールと、
    前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶する回答データ記憶モジュールと、
    前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力する結果データ出力モジュールと、
    を備える音声認識装置。
  2. 請求項1に記載の厳密度毎に異なる一以上の回答データを、回答に完全一致した回答データに基づいて、形態素解析により自動生成する音声認識装置。
  3. ユーザから音声入力された音声データを応答データとして判断する自動応答方法であって、
    質問を出力し、前記ユーザからの音声による応答データを受付けるステップと、
    前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶するステップと、
    前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶するステップと、
    前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力するステップと、
    を備える自動応答方法。
  4. ユーザから音声入力された音声データをテキスト化する音声認識装置に、
    質問を出力し、前記ユーザからの音声による応答データを受付けるステップ、
    前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶するステップと、
    前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶するステップ、
    前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力するステップ、
    を実行させるための自動応答プログラム。
JP2011168751A 2011-07-13 2011-07-13 音声認識装置、自動応答方法及び、自動応答プログラム Active JP5834291B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011168751A JP5834291B2 (ja) 2011-07-13 2011-07-13 音声認識装置、自動応答方法及び、自動応答プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011168751A JP5834291B2 (ja) 2011-07-13 2011-07-13 音声認識装置、自動応答方法及び、自動応答プログラム

Publications (2)

Publication Number Publication Date
JP2013020220A true JP2013020220A (ja) 2013-01-31
JP5834291B2 JP5834291B2 (ja) 2015-12-16

Family

ID=47691673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011168751A Active JP5834291B2 (ja) 2011-07-13 2011-07-13 音声認識装置、自動応答方法及び、自動応答プログラム

Country Status (1)

Country Link
JP (1) JP5834291B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018085715A (ja) * 2016-09-02 2018-05-31 ソニー株式会社 最適かつ効率的な相互作用体験のためのシステム及び方法
JP2019090917A (ja) * 2017-11-14 2019-06-13 株式会社情報環境デザイン研究所 音声テキスト化装置、方法、及びコンピュータプログラム
JP2019101273A (ja) * 2017-12-04 2019-06-24 哲也 大城 押韻評価装置、コンピュータの制御方法、及び押韻評価プログラム
CN110390935A (zh) * 2019-07-15 2019-10-29 百度在线网络技术(北京)有限公司 语音交互方法和装置
JP2020003081A (ja) * 2018-06-25 2020-01-09 株式会社パロマ ガスコンロ用の制御装置、ガスコンロシステム、及びガスコンロ用の制御装置における指示データ生成プログラム
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体
JP2020160388A (ja) * 2019-03-28 2020-10-01 日本電信電話株式会社 採点支援装置、その方法、およびプログラム
WO2024085119A1 (ja) * 2022-10-21 2024-04-25 株式会社インタラクティブソリューションズ 文を評価する方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094040A (ja) * 2002-09-02 2004-03-25 Global Hold Kk 語学教材データ生成方法
JP2005134691A (ja) * 2003-10-31 2005-05-26 Hitachi Ltd ネットワークを経由した教育システムの自動採点装置
WO2006134759A1 (ja) * 2005-06-15 2006-12-21 Waseda University 文章評価装置及び文章評価プログラム
JP2010282058A (ja) * 2009-06-05 2010-12-16 Tokyobay Communication Co Ltd 外国語学習補助方法及び装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094040A (ja) * 2002-09-02 2004-03-25 Global Hold Kk 語学教材データ生成方法
JP2005134691A (ja) * 2003-10-31 2005-05-26 Hitachi Ltd ネットワークを経由した教育システムの自動採点装置
WO2006134759A1 (ja) * 2005-06-15 2006-12-21 Waseda University 文章評価装置及び文章評価プログラム
JP2010282058A (ja) * 2009-06-05 2010-12-16 Tokyobay Communication Co Ltd 外国語学習補助方法及び装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018085715A (ja) * 2016-09-02 2018-05-31 ソニー株式会社 最適かつ効率的な相互作用体験のためのシステム及び方法
JP2019090917A (ja) * 2017-11-14 2019-06-13 株式会社情報環境デザイン研究所 音声テキスト化装置、方法、及びコンピュータプログラム
JP2019101273A (ja) * 2017-12-04 2019-06-24 哲也 大城 押韻評価装置、コンピュータの制御方法、及び押韻評価プログラム
JP7162865B2 (ja) 2018-06-25 2022-10-31 株式会社パロマ ガスコンロ用の制御装置、及びガスコンロシステム
JP2020003081A (ja) * 2018-06-25 2020-01-09 株式会社パロマ ガスコンロ用の制御装置、ガスコンロシステム、及びガスコンロ用の制御装置における指示データ生成プログラム
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体
JP2020160388A (ja) * 2019-03-28 2020-10-01 日本電信電話株式会社 採点支援装置、その方法、およびプログラム
JP7258627B2 (ja) 2019-03-28 2023-04-17 日本電信電話株式会社 採点支援装置、その方法、およびプログラム
CN110390935A (zh) * 2019-07-15 2019-10-29 百度在线网络技术(北京)有限公司 语音交互方法和装置
JP7153681B2 (ja) 2019-07-15 2022-10-14 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声対話方法及び装置
US11341967B2 (en) 2019-07-15 2022-05-24 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for voice interaction
JP2021015266A (ja) * 2019-07-15 2021-02-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話方法及び装置
WO2024085119A1 (ja) * 2022-10-21 2024-04-25 株式会社インタラクティブソリューションズ 文を評価する方法

Also Published As

Publication number Publication date
JP5834291B2 (ja) 2015-12-16

Similar Documents

Publication Publication Date Title
JP5834291B2 (ja) 音声認識装置、自動応答方法及び、自動応答プログラム
US10079014B2 (en) Name recognition system
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
JP6505117B2 (ja) 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア
US8849666B2 (en) Conference call service with speech processing for heavily accented speakers
EP4086897A2 (en) Recognizing accented speech
US8239202B2 (en) System and method for audibly outputting text messages
CN107707745A (zh) 用于提取信息的方法和装置
CN110493123B (zh) 即时通讯方法、装置、设备及存储介质
US11144713B2 (en) Communication device generating a response message simulating a response by a target user
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
CN108538284A (zh) 同声翻译结果的展现方法及装置、同声翻译方法及装置
KR20150041592A (ko) 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스
US8423366B1 (en) Automatically training speech synthesizers
JP2011253389A (ja) 端末および擬似会話用返答情報作成プログラム
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2019050601A1 (en) GENERATION OF NAME-ENTITY PRONUNCIATION FOR SPEECH SYNTHESIS AND VOICE RECOGNITION
CN108132717A (zh) 候选词的推荐方法、装置、存储介质及移动终端
CN110298150B (zh) 一种基于语音识别的身份验证方法及系统
CN109948155B (zh) 一种多意图的选择方法及装置、终端设备
JP2018181018A (ja) 会話提供装置、会話提供方法及びプログラム
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
KR20190083438A (ko) 한국어 대화 장치
Ansari et al. Multilingual speech to speech translation system in bluetooth environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140704

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150928

R150 Certificate of patent or registration of utility model

Ref document number: 5834291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250