JP2013020220A

JP2013020220A - 音声認識装置、自動応答方法及び、自動応答プログラム

Info

Publication number: JP2013020220A
Application number: JP2011168751A
Authority: JP
Inventors: Keiichiro Higuchi; 惠一郎樋口
Original assignee: HIGHWARE CO Ltd
Current assignee: HIGHWARE CO Ltd
Priority date: 2011-07-13
Filing date: 2011-07-13
Publication date: 2013-01-31
Anticipated expiration: 2031-07-13
Also published as: JP5834291B2

Abstract

【課題】音声認識での応答を行う際に、正解の厳密度を調整することが可能な音声認識装置、自動応答方法及び、自動応答プログラムを提供する。
【解決手段】ユーザから音声入力された音声データをテキスト化する音声端末１０であって、ユーザの応答を正解とするか否かの判断基準となる厳密度と、ユーザの応答である応答データに対して、厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶しておく。そして、質問を出力し、ユーザからの音声による応答データを受付け、応答データと予め記憶された回答データとをテキスト文字で比較し、応答データが正解か否かを判断して結果データを出力する際に、厳密度に基づいて結果データを出力する。
【選択図】図２

Description

本発明は、音声入力が可能な情報端末を利用した音声認識装置、自動応答方法及び、自動応答プログラムに関する。

近年、スマートフォン等の情報端末に対する入力方法として、タッチパネルやボタン操作のみならず、ユーザがスマートフォンに対して、音声を発することで、入力を行う方法が知られている。手が不自由な場合や、指差し操作で入力が困難なユーザには、メリットが大きい。

例えば、クイズゲームのように、ゲーム装置が問題を出力して、プレイヤーが音声により回答する技術が知られている（例えば、特許文献１）。この場合、音声認識を利用して問題の正解を判断する。

特開２００２−１５９７４１号公報

しかしながら、音声入力は発話者によって言い方に違いがあるため、テキストデータに変換する際の認識率が問題になる場合が多い。そのため、キー入力に比べると、その正確性に失望し音声入力を行わなくなるという課題がある。したがって、認識対象の言葉にある程度の幅を設けておくことが必要となる。

一方、失語症のリハビリテーションでは、言葉を口から発することで、人は健康になれるという全体構造法と呼ばれる考え方がある。すなわち、言語（話し言葉）を口から発声することで、聴覚、触覚、視覚、運動感覚、自己受領感覚等が最適に機能するという考え方である。このようなリハビリテーションを行っている患者が、音声認識装置を利用した場合、音声認識の正解を厳密に実行すると、患者にとっては、酷な結果となってしまう場合がある。例えば、発声そのものが練習である患者に、「あ」ではなく「や」と発声してしまい、不正解であると判断すると、その患者は、やる気を失い、モチベーションを維持できなくなる場合がある。

本発明は、このような課題に鑑み、音声認識での応答を行う際に、正解の厳密度を調整することが可能な音声認識装置、自動応答方法及び、自動応答プログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

第１の特徴に係る発明は、ユーザから音声入力された音声データをテキスト化する音声認識装置であって、質問を出力し、前記ユーザからの音声による応答データを受付ける音声入力モジュールと、前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶する厳密度記憶モジュールと、前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶する回答データ記憶モジュールと、前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力する結果データ出力モジュールと、を備える音声認識装置を提供する。

第１の特徴に係る発明によれば、ユーザから音声入力された音声データをテキスト化する音声認識装置であって、予め、ユーザの応答を正解とするか否かの判断基準となる厳密度と、ユーザの応答である応答データに対して厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶しておく。そして、質問を出力し、ユーザからの音声による応答データを受付けて、応答データと予め記憶された回答データとをテキスト文字で比較し、応答データが正解か否かを判断して結果データを出力する際に、厳密度に基づいて結果データを出力する。

したがって、質問を出題し、ユーザから音声入力された音声データを、その質問に対する応答とした場合に、正解か否かの厳密度を調整して、結果を出力することが可能である。

第１の特徴に係る発明は、発明のカテゴリにおいてシステムのみならず、方法、プログラムにおいても同様の作用・効果を奏する。

第２の特徴に係る発明によれば、第１の特徴に係る発明において、さらに、厳密度毎に異なる一以上の回答データを、回答に完全一致した回答データに基づいて、形態素解析により自動生成する音声認識装置を提供する。

したがって、応答の厳密度を調整して正解とする際に、一以上の回答データを事前に準備する必要があるが、この回答データを音声認識装置が自動的に生成することが可能である。

本発明によれば、音声認識での応答を行う際に、正解の厳密度を調整することが可能な音声認識装置、自動応答方法及び、自動応答プログラムを提供することができる。

図１は、自動応答システム１の構成図である。図２は、音声認識サーバ１００、音声端末１０の機能ブロック図である。図３は、音声認識サーバ１００、音声端末１０が実行する基本応答処理を示すフローチャートである。図４は、厳密度＆回答データ対応テーブルの例１を示す図である。図５は、厳密度＆回答データ対応テーブルの例２を示す図である。図６は、回答データ生成処理のフローチャートである。図７は、音声端末１０に表示される画面イメージ図（日本語学習１）である。図８は、音声端末１０に表示される画面イメージ図（日本語学習２）である。図９は、音声端末１０に表示される画面イメージ図（日本語学習３）である。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［自動応答システムのシステム構成］
図１は、本発明の好適な実施形態である自動応答システム１のシステム構成図である。自動応答システム１（音声認識装置）は、音声端末１０ａ、１０ｂ（以下、単に「１０」とする）、音声認識サーバ１００、コンテンツダウンロードサーバ２００、２１０、公衆回線網３（例えば、インターネット網や第３世代、第４世代通信網など）から構成される。

音声端末１０は、音声入力が可能な端末であって、無線通信により基地局と電波を交信し、基地局から交換機に接続して、公衆回線網３に接続されている、そして、公衆回線網３を介して、音声認識サーバ１００と通信可能に接続されている。音声認識サーバ１００は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）で接続されていてもよいし、公衆回線網３を介して接続されていてもよい。自動応答システム１内の通信は、無線通信、有線通信を問わない。音声端末１０が公衆回線網３と接続するために、ルータ等のネットワーク機器を介して通信可能であってよい。

音声端末１０は、ユーザがサポートを受けるための一般的な情報端末であってよく、後述する機能を備える情報機器や電化製品である。音声端末１０は、例えば、スレート端末１０ａ、スマートフォン１０ｂ、携帯電話、複合型プリンタ、テレビ、ルータ又はゲートウェイ等のネットワーク機器、コンピュータに加えて、冷蔵庫、洗濯機等の白物家電であってもよいし、電話機、ネットブック端末、電子書籍端末、電子辞書端末、携帯型音楽プレーヤ、携帯型コンテンツ再生・録画プレーヤ等の一般的な情報家電であってよい。

音声認識サーバ１００は、音声端末１０に入力された音声をテキスト化する装置である。コンテンツダウンロードサーバ２００、２１０は、音声端末１０にて実行される音声応答アプリケーションのコンテンツが記憶された装置である。コンテンツは、音声応答アプリケーションで出題する問題と回答から構成されるデータである。音声端末１０は、このコンテンツを各コンテンツダウンロードサーバ２００、２１０からダウンロードして実行する。

［各機能の説明］
図２は、音声認識サーバ１００、音声端末１０の機能ブロックと各機能の関係を示す図である。図２を参照して、各装置のハードウェア構成について機能ブロック図を用いて説明する。

音声端末１０は、ユーザから入力された音声によって応答を行う音声応答アプリケーションが実行される端末である。音声端末１０は、制御部１１、データ記憶部１２、データ通信部１３、音声入力部１４、表示又は音声出力部１５を備えていれば、家庭用電化製品、業務用電化製品、携帯端末、業務用端末のいずれであってもよい。

制御部１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備え、データ通信部１３として、ＷｉＦｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）対応デバイス等を備える（有線によるＬＡＮ接続であってもよい）。さらに、データ記憶部１２として、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等を備える。さらに、音声入力部１４として、マイク、アンプを備え、表示又は音声出力部１５として、画像を表示する液晶モニタ等の表示部と、スピーカを備える。さらに、ユーザからの入力を受付けるキーボードやタッチパネル、音声入力等のタッチパネル入力部を備えてもよい。

制御部１１と音声入力部１４とのハードウェアの協働により、ソフトウェア的な音声入力モジュール２１を実現する。制御部１１とデータ通信部１３とのハードウェアの恊働によりソフトウェア的な音声認識モジュール２２を実現する。制御部１１と表示又は音声出力部１５とのハードウェアの恊働によりソフトウェア的な結果データ出力モジュールを実現する。制御部１１とデータ記憶部１２とのハードウェアの恊働により、ソフトウェア的な回答データ記憶モジュール２４と厳密度記憶モジュール２５を実現する。

音声入力モジュール２１は、音声端末１０で実現されるが、音声端末１０単独で音声のテキスト化ができない場合は、音声認識サーバ１００の音声テキスト変換モジュール２００１を含んでもよい。

音声認識サーバ１００は、制御部１０１、音声テキストデータベース１０２、データ通信部１０３を備える。

制御部１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備え、データ通信部１０３として、有線又は無線対応の通信デバイスを備え、音声テキストデータベース１０２として、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等のいずれか又は双方を備える。

制御部１０１とデータ通信部１０３とのハードウェアの協働により、ソフトウェア的な音声テキスト変換モジュール２０１を実現する。

コンテンツダウンロードサーバ２００、２１０は、音声認識サーバ１００と同様のハードウェア構成であってよいので、説明を省略する。

［基本応答処理］
図３は、音声端末１０、音声認識サーバ１００が実行するサーバ型制御処理のフローチャートである。以下では、音声認識アプリケーションが、音声認識サーバ１００との連携で音声端末１０にて動作する実施例で説明するが、音声テキスト変換モジュール２０１が音声端末１０で実現されて、音声端末１０単体で処理が実行されてもよい。

前提として、音声端末１０には、音声応答アプリケーションがインストールされている。そして、このアプリケーションがコンテンツダウンロードサーバ２００、２１０にアクセスして、コンテンツをダウンロードする。音声応答アプリケーションは、問題と回答から構成されたコンテンツを実行可能なアプリケーションである。音声応答アプリケーションは、この問題に対して、ユーザの応答を回答と比較して結果を出力する。

最初に、この音声端末１０を使用するユーザ又は管理者が、音声応答アプリケーションの厳密度を設定する（ステップＳ０１）。厳密度とは、回答と応答を比較した際に、正解とするか不正解とするかを判断する際の基準である。厳密度については、図４、図５を用いて後述する。ここでは、例えば、図４の厳密度＆回答データ対応テーブルの「レベル」を「０」から「１０」までの何れかに設定する。レベルの番号が上がるほどに、正解の厳密度が高くなる。

次に、音声端末１０は、ユーザから音声応答アプリケーションの開始要求を受付ける（ステップＳ０２）。この開始要求とは、音声応答アプリケーションのアイコンを選択したことであってよい。音声端末１０は、ユーザから音声応答アプリケーションの開始要求を受付けた（ステップＳ０２：「ＹＥＳ」）場合には、ステップＳ０３に処理を移す。音声端末１０は、ユーザから音声応答アプリケーションの開始要求を受付けるまで（ステップＳ０２：「ＮＯ」）は、処理待ちとなる。

次に、音声端末１０は、質問データを出力する（ステップＳ０３）。質問データとは、コンテンツを構成する質問に関するデータである。図７は、音声端末１０に日本語学習コンテンツを表示出力したイメージ図である。例えば、図７に示すように、日本語学習のコンテンツでは、「「あたたかい」の逆の言葉は？」が、質問データである。質問データの出力は、画面表示による出力であってよいが、音声による出力であってもよい。

次に、音声端末１０は、ユーザから、質問データに対する応答となる音声入力を受付ける（ステップＳ０４）。例えば、図７に示すように、音声端末１０の表示部にマイクのマークと「お話ください」と文字が表示されることで、ユーザの発声を促す。音声端末１０は、音声入力があったと判断した場合（ステップＳ０４：「ＹＥＳ」）には、ステップＳ０５に処理を移す。音声端末１０は、音声入力があるまで（ステップＳ０４：「ＮＯ」）は、処理待ちとなる。

そして、音声端末１０は、入力された音声データを音声認識サーバ１００に送信する（ステップＳ０５）。音声認識サーバ１００は、音声テキストデータベース１０２を利用して音声データをテキスト化する（ステップＳ０６）。

音声認識サーバ１００からの応答が来るまでに、音声端末１０は、回答データ生成処理を実行してもよい（ステップＳ０７）。回答データ生成処理は、図６にて説明する処理であって、厳密度＆回答データ対応テーブルが音声端末１０に記憶されていないときに実行される処理である。

ここでは、厳密度＆回答データ対応テーブルが音声端末１０に記憶されているとして説明する。すなわち、この場合は、音声端末１０は、回答データ生成処理を実行しない。

次に、音声認識サーバ１００は、送信された音声データをテキスト化して、これを応答データとして、音声端末１０に送信する（ステップＳ０８）。

音声端末１０は、送信された応答データを受信して、応答データと厳密度＆回答データ対応テーブル内の回答データを比較する（ステップＳ０９）。この際に、予め設定された厳密度に基づいて、回答データが選択される。

厳密度＆回答データ対応テーブルは、ユーザが入力した応答データが、正解であるか否かを判断するテーブルである。例えば、質問に対して、完全一致する場合の回答が「ずっきーにのぱすた」であるとする。この場合は、厳密度が一番高いレベル１０では、完全一致が正解の条件となるので、「ずっきーにのぱすた」が正解となる。これに対して、厳密度のレベルが０の場合は、回答データが「ＡＮＹ」となっており、これは、ユーザからの応答データが何であっても、入力があれば全て正解とする厳密度である。このレベル１０から０までの正解か否かを判断するチェック項目がレベルごとに定められている。

例えば、レベル１では、「すっきーにのぱすた」の１文字でも応答データに含まれていれば正解とする。レベル２では、「すっきーにのぱすた」の連続した２文字が適合すれば正解とする。

次に、音声端末１０は、予め定められた厳密度に基づいて結果データを選択し（ステップＳ１０）、選択した結果データを出力する（ステップＳ１１）。結果データとは、応答データが正解又は不正解であることをユーザに知らせるためのデータであって、画像や文字であってもよいし、音や音声であってもよい。図８は、音声端末１０に日本語学習コンテンツを表示出力したイメージ図である。例えば、図８に示すように、日本語学習のコンテンツでは、「「さむい」ですね！正解です！」が、結果データである。

なお、図８の例で説明すると、この日本語学習コンテンツでは、厳密度のレベルをレベル２と予め設定していたとする。この場合に、テキスト化された応答データが「さむ」であったとする。この場合、完全一致の回答データは「さむい」であるが、レベル２に予め設定されているため、厳密度＆回答データ対応テーブルを参照して、連続２文字が適合するため、正解を表示する結果データが選択される。

一方、厳密度がレベル４に設定されている場合に、テキスト化された応答データが「さむ」であったとする。この場合、レベル４では、連続２文字が適合したのみでは、正解ではないため、図９の例で説明すると、厳密度＆回答データ対応テーブルを参照して不正解を表示する結果データが選択される。

なお、結果データは、正解、不正解という２択の選択肢に対する結果に限られず、所定の言葉を言うと、所定の言葉を返すように２つ以上の選択肢に対応する結果データであってよい。

なお、基本応答処理のステップＳ０６の処理が、音声端末１０で実行されてもよい。この場合は、音声端末１０が音声をテキスト化するためのデータベースである音声テキストデータベース１０２を有し、ステップＳ０５、ステップＳ０８が実行されない。

［回答データ生成処理］
次に、基本応答処理のステップＳ０７の回答データ生成処理について説明する。ここでは、回答データ生成処理を音声端末１０が実行する場合について説明するが、音声認識サーバ１００や他のサーバが実行し、結果となる厳密度＆回答データ対応テーブルを生成してもよい。

最初に、音声端末１０に対して、コンテンツダウンロードサーバ２００、２１０からダウンロードされた回答（完全一致の回答）を入力する（ステップＳ２０）。これに応じて、音声端末１０は、回答データの形態素解析を行って、自然言語処理を行う。そして、自然言語処理を行った文字をひらがなに変換する（ステップＳ２２）。次に、厳密度のレベル１から９までの回答データを生成する処理を順次行う（ステップＳ２２からステップＳ３１）。

最初に、音声端末１０は、レベル１の処理として１文字適合の回答データを生成する（ステップＳ２３）。１文字適合の回答データは、ステップＳ２２までに行った、ひらがな変換された回答データを文字毎に切断して、この切断した文字全てを１文字適合の回答データとする。図４の例では、「えがおがすてきだね」を「え」、「が」、「お」、「が」、「す」、「て」、「き」、「だ」、「ね」とする回答データを生成する処理である。

次に、音声端末１０は、レベル２の処理として連続２文字適合の回答データを生成する（ステップＳ２４）。これは、レベル１の処理で生成した１文字適合の１文字で構成される回答データを文字の順番毎に２文字づつ接続して生成する。図４の例では、「えがおがすてきだね」を「えが」、「がお」、「おが」、「がす」、「すて」、「てき」、「きだ」、「だね」とする回答データを生成する処理である。

次に、音声端末１０は、レベル３の処理としてメインワード適合の回答データを生成する（ステップＳ２５）。メインワードとは、完全一致回答データのうち言語辞書に掲載されている文字列を抽出して、抽出された文字列をメインワードとする。例えば、「えがおがすてきだね」は、「えがお」、「すてき」が意味がある言語として抽出されるため、これらの文字列をメインワードとする。このメインワード以外の違いは、レベル３では無視することとして、正解とする。したがって、回答データをメインワードである「えがお」、「すてき」と生成して、応答データにこれらのメインワードが含まれるか否かで、正解であるかを判断する。

なお、メインワードの抽出としては、メインワードではない文字列をメインワードとしてしまうノイズの生成を抑えるために、完全一致する回答データを出題者から漢字入力やカタカナ入力させてもよい。例えば、上述の例では、「えがお」、「すてき」以外にも「がす」、「てき」などもメインワードとして抽出されるおそれがある。そこで、漢字によりメインワードを判別すれば、「が素敵だ」から、「がす」、「てき」はメインワードとして抽出されないですむ。

次に、音声端末１０は、レベル４の処理として濁音、半濁音の違いを考慮した回答データを生成する（ステップＳ２６）。すなわち、完全一致する回答データに濁音、半濁音が含まれる場合に、これらの濁音、半濁音を静音に変換した回答データを生成する。例えば、完全一致した回答データが「えがおがすてきだね」では、「えかおかすてきたね」や変換部分を組み合わせた「えがおかすてきだね」等を回答データとして生成する。すなわち、濁音や半濁音が音声認識できず、テキスト化において静音で認識されても、正解とする。

次に、音声端末１０は、レベル５の処理として助詞、語尾の有無適合を考慮した回答データを生成する（ステップＳ２７）。すなわち、形態素解析した結果から、助詞や語尾を抽出し、この助詞が変換されたり、無い場合の文字列を回答データとする。例えば、完全一致した回答データが「えがおがすてきだね」の場合は、「えがおすてきだね」、「えがおはすてきだね」、「えがおがすてき」を、このレベルの回答データとして、これらの応答データであっても正解とする。

次に、音声端末１０は、レベル６の処理として伸ばし、同音異字適合を考慮した回答データを生成する（ステップＳ２８）。すなわち、「じ」と「ぢ」、「ず」と「づ」は、同音であるが、字が異なる。また、「きー」と、伸ばしを使用した表記と、「きい」と子音の後にその子音の母音を入れる表記は、ほとんど同じ音であるが、異なる表記をする。したがって、これらの相互が入れ替わっていても正解とする回答データを生成する。例えば、「ずっきーにのぱすた」では、「づっきーにのぱすた」であっても正解であるし、「ずっきいにのぱすた」であっても正解となる。また、伸ばしは、母音を繰り返す場合に、例えば、「おー」と「おお」は表記が異なるが、相互に入れ替えても正解としてよい。

次に、音声端末１０は、レベル７の処理として撥音、拗音適合を考慮した回答データを生成する（ステップＳ２９）。すなわち、撥音や拗音がなかったり、小さい「っ」が「つ」と表記されていても正解とする回答データを生成する。例えば、「ずっきーにのぱすた」は、「ずつきーにのぱすた」、「ずきーにのぱすた」であっても正解とする回答データを生成する。

次に、音声端末１０は、レベル８の処理としてメインワードを考慮した回答データを生成する（ステップＳ３０）。これは、ステップＳ２５とは異なり、メインワード以外の１文字が異なる回答データを生成する。例えば、「えがおがすてきだね」では、「えがおがすてきらね」も正解とする回答データを生成する。

最後に、音声端末１０は、レベル９の処理として英数字、漢字を考慮した回答データを生成する（ステップＳ３１）。これは、英数字や漢字、カタカナ、かな等の相互の入替えがあっても正解とする回答データを生成する。例えば、「えがおがすてきだね」では、「笑顔がステキだね」でも、「Ａ顔が素敵だね」でも正解とするため、これらの組み合わせを回答データとして生成する。

音声端末１０は、これらの生成された回答データを厳密度毎に、厳密度＆回答データ対応テーブルに格納する。

なお、上述の説明では、音声認識の対象となる言語を日本語として説明したが、言語の種類を問わずに本実施例は適用可能である。すなわち、英語、中国語、韓国語、ロシア語でいずれの言語であっても、厳密度が設定可能であることから、音声応答アプリケーションを構築可能である。

上述した手段、機能は、コンピュータが、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、コンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し記憶して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記憶装置（記録媒体）に予め記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。

以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

１自動応答システム、３公衆回線網、１０音声端末、１００音声認識サーバ

Claims

ユーザから音声入力された音声データをテキスト化する音声認識装置であって、
質問を出力し、前記ユーザからの音声による応答データを受付ける音声入力モジュールと、
前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶する厳密度記憶モジュールと、
前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶する回答データ記憶モジュールと、
前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力する結果データ出力モジュールと、
を備える音声認識装置。
請求項１に記載の厳密度毎に異なる一以上の回答データを、回答に完全一致した回答データに基づいて、形態素解析により自動生成する音声認識装置。
ユーザから音声入力された音声データを応答データとして判断する自動応答方法であって、
質問を出力し、前記ユーザからの音声による応答データを受付けるステップと、
前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶するステップと、
前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶するステップと、
前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力するステップと、
を備える自動応答方法。
ユーザから音声入力された音声データをテキスト化する音声認識装置に、
質問を出力し、前記ユーザからの音声による応答データを受付けるステップ、
前記ユーザの応答を正解とするか否かの判断基準となる厳密度を予め記憶するステップと、
前記ユーザの応答である応答データに対して、前記厳密度毎に異なる一以上の回答データを、当該厳密度に対応付けて記憶するステップ、
前記応答データと予め記憶された回答データとをテキスト文字で比較し、前記応答データが正解か否かを判断して結果データを出力する際に、前記厳密度に基づいて前記結果データを出力するステップ、
を実行させるための自動応答プログラム。