JP2010054549A

JP2010054549A - 回答音声認識システム

Info

Publication number: JP2010054549A
Application number: JP2008216258A
Authority: JP
Inventors: Yuzo Takahashi; 優三高橋
Original assignee: Gifu University NUC
Current assignee: Gifu University NUC
Priority date: 2008-08-26
Filing date: 2008-08-26
Publication date: 2010-03-11

Abstract

【課題】総合的な認識率の向上、及び周囲の雑音等の影響による受けることがなく、認識に係る処理時間を短縮する回答音声認識システムの提供を課題とする。
【解決手段】認識システム１は、装置本体７、装置本体７に接続した質問回答情報表示手段８、音声の回答を取得し、装置本体７に入力するマイク９を主に具備する。装置本体７は、音声を受付ける誘導音声入力手段１０、データベース１３，１５を有する質問回答情報記憶手段１６、質問情報１２等を抽出する質問回答情報抽出手段１７、質問情報１２等を画面表示可能に出力する質問回答情報出力制御手段１８、音声による回答を想定回答５の一つに視覚によって誘導し、入力受付をする誘導音声入力手段１０、音声認識によって想定回答５を決定する音声認識手段１９、決定された想定回答５を記憶する回答結果記憶手段２０、及び関連する新たな質問情報１２を抽出する関連質問情報抽出手段２１を有する。
【選択図】図２

Description

本発明は、回答音声認識システムに関するものであり、特に、質問に対する回答を予め選定された選択肢に誘導し、当該選択肢に係る語彙を音声認識することにより、回答の音声認識率を向上させることが可能な回答音声認識システムに関するものである。

従来から、マイク等の音声入力手段によって取得された音声から語彙を認識する音声認識システムの開発がなされている。このシステムは、例えば、自動翻訳システムや自動議事録作成システム等の種々の分野に応用されている。特に、認識した音声によって、所定項目に対する入力を行うことにより、従来は手で記入していた、或いはキーボード等によって打ち込んでいた情報を簡易、かつ素早く入力することが可能となるものである。

ここで、一般的な音声認識の手法としては、統計的手法が多く利用されている。この場合、予め記録した複数の語彙についてのデータ（語彙データ）と、入力された音声データとの特徴を比較し、尤度を算出し、当該尤度が設定された閾値よりも高い場合に、音声データがその語彙であると認識し、これを表示または保存等の出力を行うものである。さらに、近年においては、種々の認識性能を向上させるための試みが行われている。例えば、語彙数の多いシステムの場合には、文脈依存性を考慮して認識率を高めたり、話し手の違い（男性、女性、子供等）の違いや、周囲の録音状況の違いに基づいて統計的な処理が為されることがある。しかしながら、周囲の雑音等の録音状況によって認識率が低下することは顕著なものであり、また、例えば、質問に対する回答を認識する場合、予め想定した回答に含まれる語彙とは全く異なった回答をする場合もあった。

そこで、語彙の認識率を向上させるために、例えば、「認識対象語彙に音響的に類似していない発生がなされた場合、これを的確にリジェクトすると共に、認識対象語彙を多少曖昧に発生入力した場合もこれをリジェクトしない入力音声リジェクト方法および装置」の開発が行われている（特許文献１参照）。

これによると、始めに、認識対象語彙からなる認識対象文字列を予め記憶しておき、当該文字列に音響的に類似する類似文字列を作成し、さらに認識対象文字列及び類似文字列にいずれも音響的に類似しないリジェクト文字列を作成しておく。そして、入力された音声に対して認識対象文字列及び類似文字列とリジェクト文字列との間で音声認識処理を行って、認識尤度の高い順に予め決められた認識結果内に、当該リジェクト文字列が一定の確度以上で存在した場合、認識対象文字列以外の発声であると判断するものである。一方、入力された音声が、類似文字列と間で認識尤度が高い場合、上記リジェクトを行わず、認識対象文字列が発声されたものと認識する。これにより、音声認識の認識率を向上させることが可能となる。

特開平９−２４４６９１号公報

しかしながら、上記音声認識技術及びシステムの場合、下記に掲げるような問題を生じることがあった。すなわち、上記の音声認識システムは、通常の会話で交わされる音声を認識するものであり、その会話に含まれる語彙を制限することができず、自由な会話によって音声入力が行われるものであった。そのため、話し手（発声者）は、何ら会話の中に含まれる語彙に注意を払う必要はなく、会話の内容が規制されることはなかった。

しかしながら、自由な会話のため、当該会話に含まれる語彙の中に、音声的に類似しない語彙が入力された場合、当該語彙はリジェクトされるため、総合的に音声の認識率が低下することがあった。ここで、音声的に類似しない音声入力を含めて認識した場合、周囲の雑音を認識対象語彙として誤認識するおそれがあった。さらに、予めリジェクト用の文字列を準備しておく必要があり、係る文字列をデータベース化して記憶するために多くのメモリ量（記憶容量）を確保する必要があった。その結果、リジェクト用文字列と音声入力された音声との比較とのために認識時間が多く必要となり、音声認識に係る処理に負担を生じることがあった。そのため、複雑な会話の場合、話し手による会話をリアルタイムで音声認識することが困難となることがあった。

そこで、本発明は、上記実情に鑑み、総合的な認識率の向上をさせることを目的とし、かつ、周囲の雑音等の影響を受けることがなく、認識に係る処理時間を短縮することが可能な回答音声認識システムの提供を課題とするものである。

上記の課題を解決するため、本発明の回答音声認識システムは、「回答者に対して問われる複数の質問項目を質問情報としてデータベース化して記憶する質問情報データベース、及び前記質問項目に対して前記回答者が回答すると予想され、音声認識のための認識対象語彙を含んで構成される多項目の想定回答によって構成された想定回答選択肢を回答情報としてデータベース化して記憶する回答情報データベースを有する質問回答情報記憶手段と、前記質問情報データベースに記憶された複数の前記質問情報の中から一つが質問者によって選択され、その指定に係る入力を受付けるとともに、選択された前記質問情報及び対応する前記回答情報を抽出する質問回答情報抽出手段と、抽出された前記質問情報及び前記回答情報を、視覚によって認識可能に表示するために出力する質問回答情報出力制御手段と、前記質問回答情報出力制御手段によって出力された前記質問情報及び前記回答情報に基づいて、前記質問情報の前記質問項目及び前記回答情報の前記想定回答選択肢をそれぞれ表示し、前記回答者に対して提示する質問回答情報表示手段と、表示された前記想定回答選択肢によって、前記質問項目に対する前記回答者の回答を前記想定回答選択肢のいずれか一つの前記想定回答に誘導するとともに、前記回答者の回答を音声によって受付け、音声情報として入力する誘導音声入力手段と、受付けた前記回答の前記音声情報に含まれる前記認識対象語彙を検出し、前記認識対象語彙と音響的若しくは音声的に類似する語彙を含む前記想定回答を音声認識によって決定する音声認識手段と、決定した前記想定回答を前記質問項目に対応する回答結果データとして記憶する回答結果記憶手段と」を主に具備して構成されている。

ここで、質問情報データベースとは、回答者に対して問われる質問を予め記憶したものであり、例えば、質問者が医師で、回答者が患者の場面においてなされる問診の場合には、“熱はありませんか？”、或いは“どこか痛いところはありませんか？”、“いつから症状が続いていますか？”等の患者の病状を把握するために必要な質問を含んでなるものである。これに対し、回答情報データベースの回答情報は、上記質問に対する回答を選択肢の形式で記憶したものであり、最も単純な“はい”、“いいえ”の二択、さらに、“わかりません”等を加えた、三択のものが採用される。さらには、“いつから症状が続いていますか？”に対しては、“昨日から”、“一週間前から”、“一ヶ月前から”等の期間に係る情報を音声認識するための選択肢等を含んで構成されている。

さらに、質問回答情報表示手段とは、抽出された質問情報の質問項目及び対応する想定回答選択肢が、画面等に表示されることにより、回答者が視覚を通じて認識することが可能とするものである。さらに、誘導音声入力手段とは、表示された質問項目に対する回答を、想定回答選択肢に誘導して答えさせて、これを音声入力するものである。すなわち、想定回答選択肢が表示された場合、回答者は無意識のうちに、質問項目に対する回答を、その想定回答選択肢の中から一つを選び、さらに想定回答選択肢に表示されたままの語彙を発声し、回答しようとすることが多い。その結果、回答者の回答が想定回答選択肢のいずれか一つの想定回答に誘導されることとなる。一方、音声認識手段とは、上述した従来の音声認識に係る技術を応用することが可能であり、予め認識対象の語彙の音声に係る語彙データをデータベース化し、これと入力された音声との尤度を算出することにより、想定回答選択肢のうちのいずれかが発声されたかを認識することが可能となる。

したがって、本発明の回答音声認識システムによれば、質問に対する回答が画面上に表示されるため、回答者の回答を無意識に当該選択肢のいずれかに誘導することができる。その結果、音声認識手段は、想定された想定回答選択肢の語彙に限定して音声入力がなされることを待機し、音声入力がされた場合、想定回答選択肢の語彙を認識することができる。これにより、音声の認識率の向上が図られる。さらに、特定の語彙のみを集中的に認識するために、当該語彙に類似しない語彙や周囲の雑音等の影響を受けることがない。

さらに、本発明の回答音声認識システムは、上記構成に加え、「前記回答結果データに基づいて、前記質問情報データベースから関連する新たな前記質問情報を予め定められた抽出条件によって抽出する関連質問情報抽出手段」を具備するものであっても構わない。

したがって、本発明の回答音声認識システムによれば、回答者の回答を音声認識するとともに、認識した回答に応じて次に質問を抽出することが可能となる。例えば、“熱はありますか？”という質問に対し、“はい”という音声による回答を認識した場合、次に想定される質問として、“何度ぐらいありますか？”、“いつから熱が続いていますか？”等の患者の様態をより深く把握するための詳細な質問を行うことができる。一方、“いいえ”という音声による回答を認識した場合には、“どこか痛いところはありませんか？”等の熱に関する質問以外の質問を抽出することとなる。これにより、複数の質問を抽出する手間を省略することができ、例えば、問診の場合、一つの質問を指定することにより、患者の病状についての必要な情報を得ることが可能となる。ここで、各質問情報の間には、回答に対する関連度を定義した質問関連値を含み、最も質問関連値の高い質問情報が次の質問として自動的に抽出されることとなる。この場合の抽出条件は、各想定回答に対し、次の質問情報を直接指定している場合はその指定に基づいて抽出がなされ、或いは抽出条件に従って複数の質問情報が検出された場合、最も優先的に抽出される質問情報を決定するために利用される。

さらに、本発明の回答音声認識システムは、上記構成に加え、「前記回答情報データベースは、前記想定回答にそれぞれ対応し、前記認識対象語彙と類似する類似文字列を含む類似文字列群をさらに含んで記憶され、前記音声認識手段は、前記認識対象語彙と音響的若しくは音声的に類似する前記類似文字列を含む前記想定回答を音声認識によって決定する類似文字列音声認識手段」を具備するものであっても構わない。

ここで、ある一つの質問に対し、“はい”、“いいえ”、“わかりません”が想定回答選択肢として表示された場合、“はい”に対しては、例えば、「はーい」、「はぁ」、「はいっ！」等の類似する回答が想定され、“いいえ”に対しては、例えば、「いえ」、「いーえ」等の類似する回答が想定され、“わかりません”に対しては、「わからない」、「しりません」等の類似する回答が想定される。そのため、これらの“はーい”等の想定回答と音響的に類似する類似文字列を含む類似文字列群が回答情報データベースの回答情報の中に含んで記憶される。

したがって、本発明の回答音声認識システムによれば、想定回答に対して類似する類似文字列を含む類似文字列群がさらに含んで記憶され、音声による回答の際に、これらの類似文字列を含む回答がなされた場合には対応する想定回答が回答されたものとして認識されることになる。これにより、想定回答の認識範囲が広くなり、音声による回答の認識率を向上させることができる。

さらに、本発明の回答音声認識システムは、上記構成に加え、「前記音声認識手段は、音声によって受付けた前記回答に含まれる語彙と、前記想定回答に含まれる前記認識対象語彙または前記類似文字列との音声認識尤度を算出する尤度算出手段と、算出された前記音声認識尤度が、予め設定した閾値よりも大きな場合、前記回答に含まれる前記語彙を前記認識対象語彙または前記類似文字列として認識し、対応する前記想定回答として決定する尤度決定手段と」を具備するものであっても構わない。

したがって、本発明の回答音声認識システムによれば、例えば、想定回答として“はい”及び“いいえ”が設定されている場合、音声による回答が“えぇー”等の“はい”または“いいえ”のどちらかに簡易に判別できないような発声がなされることがある。係る場合において、統計的手法によって音声認識尤度を算出することにより、“はい”及び“いいえ”のいずれかに決定することが可能となる。

さらに、本発明の回答音声認識システムは、上記構成に加え、「通信ネットワークを介して接続され、前記通信ネットワークを通じて前記質問情報データベースに記憶された複数の前記質問情報の中から一つを選択するための選択指示情報を送出可能な選択操作端末をさらに具備し、前記質問回答情報抽出手段は、受付けた前記選択指示情報に基づいて前記質問情報及び前記回答情報を抽出する選択抽出手段を」具備するものであっても構わない。

したがって、本発明の回答音声認識システムによれば、選択操作端末を利用して質問情報の抽出を指示することにより、質問者と回答者とが離間している場合であっても質問に対する回答を音声認識することが可能となる。これにより、例えば、都市部の病院と過疎地の病院或いは患者の自宅等をインターネットを介して接続し、患者の病状の把握をすることが可能となる。

さらに、本発明の回答音声認識システムは、上記構成に加え、「前記質問項目は、医師が前記回答者としての患者に対して実施する問診の内容を含み、前記回答結果記憶手段は、前記医師によって作成される電子カルテの入力を補助する入力補助手段を」具備するものであっても構わない。

したがって、本発明の回答音声認識システムによれば、質問者としての医師及び回答者としての患者の間の会話を音声認識し、電子カルテの作成に利用することが可能となる。

本発明の効果によれば、予め想定される回答を想定回答選択肢として質問とともに画面表示することにより、回答者は当該想定回答選択肢を視認し、その想定回答選択肢を発声して回答するように誘導することが可能となる。その結果、音声認識手段は、特に想定回答選択肢に含まれる語彙を集中的に認識するように設定することができ、これにより音声の認識率の向上を図ることができる。

以下、本発明の一実施形態の回答音声認識システム１（以下、単に「認識システム１」と称す）について、図１乃至図５に基づいて説明する。ここで、図１は本実施形態の認識システム１の概略構成を示す説明図であり、図２は認識システム１の認識装置２の機能的構成を示すブロック図であり、図３は質問項目３及び想定回答選択肢４の画面表示例を示す説明図であり、図４及び図５は認識装置２による音声認識の処理の流れの一例を示すフローチャートである。

ここで、本実施形態の認識システム１は、医師及び患者の間で介される会話である問診の内容を音声認識し、患者の状態を把握することを容易にし、かつ得られた認識結果に基づいて電子カルテへの各種データの入力を補助するものについて例示する。そのため、音声認識手段１９（詳細は後述する）によって認識される認識対象語彙は、特に医療用語について特化したものが予めデータベースに登録されており、医療用語についての認識率が高められている。ここで、患者が本発明における回答者に相当する。また、医者が患者に対して質問する質問項目３に係る質問情報１２を選択する旨の指示を操作によって出すことができるようにされている。

本実施形態の認識システム１は、図１乃至図５に示すように、質問者としての医師及び回答者としての患者による問診の会話を音声入力し、当該会話に含まれる認識対象語彙を音声認識するものであり、主に認識装置２によって構成されている。ここで、認識装置２は、市販のパーソナルコンピュータを応用して構築することが可能であり、各種処理及び制御をするための装置本体７と、装置本体７と接続され、後述する質問回答情報表示手段８として機能する液晶表示ディスプレイとによって構成されている。さらに、装置本体７には、問診の会話に係る音声を音声データとして入力するためのマイク９が接続されている。ここで、マイク９は、後述する誘導音声入力手段１０の一部機能を有している。

さらに詳細に説明すると、装置本体７は、マイク９によって取得された音声を音声情報１１として受付け、入力するための誘導音声入力手段１０と、患者に対して質問される複数の質問項目３を質問情報１２としてデータベース化して記憶する質問情報データベース１３、及び質問項目３に対して患者が回答するであろうと予想され、音声認識のための認識対象語彙を含んで構成される多項目の想定回答５によって択一的に示された想定回答選択肢４を回答情報１４としてデータベース化して記憶する回答情報データベース１５を有する質問回答情報記憶手段１６と、記憶された質問情報データベース１３の中から一つの質問情報１２が、医師によって選択される指示の入力がなされると、選択された質問情報１２及び該質問情報１２に対応して記憶された回答情報１４を回答情報データベース１５から抽出する質問回答情報抽出手段１７と、抽出された質問情報１２及び対応する回答情報１４を装置本体７と接続した液晶ディスプレイからなる質問回答情報表示手段８に出力し、患者が質問項目３及び想定回答選択肢４を視覚によって認識可能に表示するための質問回答情報出力制御手段１８と、質問情報１２及び回答情報１４によって画面表示された想定回答選択肢４の中のいずれか一つの想定回答５に、患者の回答を視覚によって誘導し、患者によって発せられた音声による回答の入力を受付ける誘導音声入力手段１０と、音声によって受付けた回答に含まれる認識対象語彙を回答情報データベース１５から検出し、音響的若しくは音声的（言語的）に類似する認識対象語彙を含む想定回答５を決定する音声認識手段１９と、音声認識され、決定された想定回答５を、患者による回答として質問情報１２に対応して記憶する回答結果記憶手段２０と、記憶された回答結果に基づいて質問情報データベース１３に記憶された複数の質問情報１２の中から、関連する新たな質問情報１２を抽出する関連質問情報抽出手段２１とを主に具備して構成されている。

さらに詳細に説明すると、質問回答情報記憶手段１６に記憶された回答情報データベース１５の中には、想定回答選択肢４を構成するそれぞれの想定回答５に対応し、かつ認識対象語彙と類似する複数の類似文字列を含む類似文字列群６がデータとして記憶されている。一方、音声認識手段１９は、患者の回答に含まれる認識対象語彙と音響的若しくは音声的（言語的）に類似する上記の類似文字列を類似文字列群６の中から対比によって認識し、当該類似文字列に類似しうる想定回答５を患者による回答結果として決定する類似文字列音声認識手段２２をさらに具備して構成されている（図２参照）。

ここで、音声認識手段１９は、音声による回答に含まれる語彙と、想定回答５に対応して予め記憶された認識対象語彙若しくは類似文字列との間の音声認識尤度に基づいて音声認識に係る処理がされている。そのため、係る音声認識尤度を算出する尤度算出手段２３ａと、算出された音声認識尤度によって想定回答５を決定する尤度決定手段２３ｂとを有している。これにより、算出された音声認識尤度が予め設定した閾値よりも高い場合、認識した回答を想定回答５の一つとして判断する処理が行われる音声認識尤度の算出は、従来の音声認識技術処理を応用することが可能であり、ここでは詳細な説明は省略するものとする。

この場合、患者の発した音声による回答を音声信号として入力を受付け、当該音声信号の特徴に照らし合わせながら統計的処理によって、尤もらしい認識対象語彙（言語系列）を選定し、その確度に応じて認識結果として出力するものである。ここで、音声認識処理においては、一般に音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。ここで、音響的な特徴とは、例えば、認識対象語彙の音素がどのような周波数特性を有しているかを数値化（若しくはグラフ化）して表したものであり、混合正規分布を出力確率とした所謂「隠れマルコフモデル」によって、音響的に類似するモデル（音響モデル）を表現することができる。一方、言語的な特徴とは、例えば、特定の音素の並び方によって、次に出現する可能性の高い音素を一定条件の制約に基づいて決定するものであり、例えば、「わたし（ｗａ−ｔａ−ｓｈｉ）」の後には、「は（ｈａ）」、「が（ｇａ）」、及び「を（ｗｏ）」等の出現確率が高いことを考慮し、次に発声される確率の高い音素に制限して音声認識を実行するものである。係る構成を適宜組合わせることにより、認識率の向上を図っている。

さらに、本実施形態の認識システム１に係る認識装置２は、その他の構成として、キーボード及びマウス等の操作手段２４とを具備し、該操作手段２４は、装置本体７の内部に構築された操作制御手段２５を介して装置本体７に操作に係る命令信号等を送出することができる。さらに、装置本体７は、インターネットＸと接続し、種々のデータ及び情報の送受を行うための送受信制御手段２６を内部に有している。

加えて、本実施形態の認識システム１は、図１に示すように、認識装置２の設置された場所から離間した遠隔地に選択操作端末２７が設けられ、インターネットＸを通じて各種指示及び認識装置２による音声認識の状況を把握することができるようになっている。具体的に説明すると、質問情報データベース１３の中から患者に対して質問する質問項目３を含む質問情報１２を一つ選択し、当該質問情報１２に対する回答情報１４の入力を求めることが可能な質問情報選択手段２８に係る構成を選択操作端末２７は具備している。ここで、選択操作端末２７は、その他の一般的な構成として、各種指示及び命令等の入力を行うためのキーボード等の操作手段２９と接続した操作制御手段３０と、インターネットＸと接続し、データ等の送受を行うための送受信制御手段３１と、質問情報１２を選択するために、質問情報データベース１３の内容を閲覧し、さらに質問情報１２の選択後に認識装置２によってなされる音声認識処理の様子を確認するために、認識装置２の質問回答情報表示手段８と同一内容の画面表示を出力制御する表示出力制御手段３２及び表示出力制御手段３２と接続した液晶ディスプレイからなる表示手段３３とを具備して構成されている。これにより、医師及び患者が離間して位置している場合、例えば、都市部の医療施設と地方の医療施設にそれぞれ居る場合であっても、インターネットＸを通じた問診を行うことが可能となる。この場合、各表示手段８，３３に相手先の画面を表示するテレビ会議システムのようなものを構築し、相手の顔や表情を確認しながら問診を行うものであっても構わない。ここで、選択操作端末２７は、市販のパーソナルコンピュータを利用することが可能である。

次に、本実施形態の認識システム１の認識装置２による音声認識の処理の一例について、図４及び図５に基づいて説明する。まず、認識装置２は、質問回答情報記憶手段１６に記憶された質問情報データベース１３の中から、患者に対して質問する質問項目３に相当する質問情報１２を選択の指示の有無を検出する（ステップＳ１）。この選択は、質問者である医師が認識装置２の操作手段２４を操作し、質問情報データベース１３の内容を質問回答情報表示手段８に読出し、これを閲覧し、直接選択するもの、或いは上述した選択操作端末２７を操作し、インターネットＸを通じて当該選択する旨の信号を認識装置２に対して送るもののいずれであっても構わない。

認識装置２は、上記いずれかの方法によって一の質問情報１２を選択する旨の指示を検出すると（ステップＳ１においてＹＥＳ）、これを受付けるとともに、質問回答情報記憶手段１６に記憶された回答情報データベース１５の複数の回答情報１４の中から、選択された質問情報１２に対応する条件に合致する回答情報１４を抽出する（ステップＳ２）。ここで、回答情報１４の検索及び抽出は、予めそれぞれの質問情報１２及び回答情報１４を各データベース１３，１５に登録し、記憶する際に互いの対向関係を示す同一の関連コードがそれぞれ付され、質問情報１２と回答情報１４とが一対一の対応関係になるように設定されている。これにより、質問情報１２の選択により、回答情報１４が速やかに抽出される。なお、本実施形態の認識システム１においては、質問情報１２と回答情報１４をそれぞれ別個のデータベース１３，１５に記憶するものを示したが、例えば、一対の質問情報１２及び回答情報１４を一つにまとめ、質問項目３及び想定回答選択肢４をセットにしたデータベースを構築するものであっても構わない。一方、上記手段によって質問情報１２の検出が確認されない場合、認識装置２は、上記ステップＳ１の処理を繰り返し、何らかの手段によって質問情報１２の選択する旨の指示があるまで待機することとなる。

質問情報１２の選択及び回答情報１４の抽出がなされた後、認識装置２は、質問回答情報表示手段８に選択及び抽出された情報に基づいて、それぞれの質問項目３及び複数の想定回答５からなる想定回答選択肢４を画面上に表示する（ステップＳ３：図３参照）。本実施形態では、図３に示すように、“熱はありますか？”のような問いかけが質問項目３に相当し、一方、“はい”、“いいえ”、“わかりません”のそれぞれが想定回答５に相当し、これら３つの想定回答５を合わせたものが想定回答選択肢４となる。ここで、質問の開始直後は、細部についての質問よりも、患者の状態を大まかに把握するための一般的な質問がなされることが好適である。すなわち、医師が患者に対して問診を行うように、大まかな質問から詳細についての質問に徐々に変化させることが好ましい。

ここで、本実施形態の場合、前述したように、“熱はありますか？”との質問項目３に対し、“はい”、“いいえ”、“わかりません”の三つの想定回答５から想定回答選択肢４が表示される。そして、この質問に対する回答は、三つの想定回答５の内のいずれか一つが必ず音声による回答によって選択されることになる。このとき、想定回答選択肢４（複数の想定回答５）は必ず回答者である患者に対して視覚を通じて認識可能なように、質問回答情報表示手段８（液晶ディスプレイ等）の表示画面に表示する必要がある。また、上記の画面表示のタイミングと同時に、音声合成処理によって構築した質問項目３及び想定回答選択肢４と同一内容の音声データをスピーカーから発する処理を行ってもよい。これにより、目の悪い患者等であって、画面表示された想定回答選択肢４が十分に視認できないケースでも、聴覚を通じて患者に認識対象語彙を含む想定回答選択肢４を提示することができる。

質問項目３及び想定回答選択肢４が質問回答情報表示手段８に出力表示された後、認識装置２は、表示された質問項目３に対する回答が音声によって発せられ、マイク９によって取得された当該音声による回答の音声情報１１の有無を検出する（ステップＳ４）。ここで、質問回答情報表示手段８には、質問項目３及び想定回答選択肢４の双方が表示されているため、その表示を視認した患者（回答者）は、質問に対する回答をその想定回答選択肢４の想定回答５から選択しようとする気持ちが無意識に働く。その結果、音声によって質問項目３に対する回答を行う場合、患者は表示された想定回答選択肢４のうちのいずれか一つの想定回答５をそのまま読み上げるようにして回答する可能性が高くなる。すなわち、本実施形態の認識システム１によれば、質問項目３及び想定回答選択肢４を同一画面で同じタイミングで画面表示することにより、質問項目３に対する回答が無限に考えられる状況においても、予め設定した想定回答５と同一若しくは類似する回答を音声によって行うように、想定回答５に無意識に誘導することができる。すなわち、従来のように、リジェクト用の文字列を予めメモリしておく必要がなく、特に、想定回答５及び後述する類似文字列群６に属する類似文字列を対象に音声認識の処理を限定することができる。これにより、音声認識による認識率を向上させることができる。

そして、認識装置２は、上記作用によって誘導された結果、表示された想定回答５を構成する認識対象語彙を含むようにして発声され、マイク９によって取得された音声による回答（音声情報１１）が検出された場合（ステップＳ４においてＹＥＳ）、当該音声情報を受付ける（ステップＳ５）。そして、受付けた音声情報１１の中から、想定回答５に対応する認識対象語彙若しくは認識対象語彙に類似し、予め類似文字列群６に記憶された複数の類似文字列と類似する語彙を検出し、統計的手法によって音声認識尤度を算出する（ステップＳ６）。一方、音声による回答が検出されず、音声情報１１の取得がない場合（ステップＳ４においてＮＯ）、認識装置２はステップＳ４の処理を継続し、音声による回答の検出を継続する。ここで、図３において、各想定回答５に対する類似文字列群６の一例（図３における破線枠内参照）を示したが、実際の質問回答情報表示手段８には、類似文字列群６に関する表示はなされない。

その後、算出された音声認識尤度と予め設定した閾値（例えば、音声認識尤度が６０％以上）との比較を行う（ステップＳ７）。すなわち、予め設定した閾値よりも音声認識尤度が高い場合（ステップＳ７においてＹＥＳ）、音声認識された語彙が想定回答５に相当するものと決定され（ステップＳ８）、質問項目３に対する回答結果として、質問情報１２に対応して回答結果データ２０ａが記憶される（ステップＳ９）。

一方、設定した閾値よりも音声認識尤度が低い場合（ステップＳ７においてＮＯ）、当該音声による回答は、想定回答５と認識できないものと判断され、係る旨が質問回答情報表示手段８に表示され（ステップＳ１０）、再びステップＳ４の処理に戻る。例えば、質問項目３の“熱はありますか？”に対して、“あります”のように、想定回答５の“はい”と同一・類似の意味を有する回答を音声によって行ったとしても、類似文字列とは音響的に相違するため、想定回答５として決定されることはない。しかしながら、先に説明したように、想定回答選択肢４の画面表示によって、想定回答５に音声による回答が誘導されているため、このような状況に遭遇する可能性は、一般の自由会話に比べて著しく低いものとなる。なお、音声認識処理による統計的手法及び音声認識尤度等の詳細については、周知の技術であるため、ここでは詳細な説明は省略する。

その後、質問項目３に対する想定回答５が決定され、回答結果データ２０ａとして記憶されると、認識装置２は決定された想定回答５に応じ、関連する次の新たな質問情報１２が指定されているか否かを検出する（ステップＳ１１）。ここで、想定回答５を含む回答情報１４に、各想定回答５が決定された場合の次の質問情報１２に関する指定を含むコード若しくは情報が含まれている場合、関連する新たな質問情報１２が有るもの判断され（ステップＳ１１においてＹＥＳ）、当該指定に基づいて質問情報１２を抽出する（ステップＳ１２）。一方、回答情報１４にそのような旨の指定がなされていない場合（ステップＳ１１においてＮＯ）、ステップＳ１２の処理をキャンセルし、質問者である医師によって新たな質問情報１２を選択する旨の指示の有無について検出する（ステップＳ１３）。

係る処理について具体的に説明すると、上述した質問項目３の“熱はありますか？”に対し、例えば、想定回答５の“いいえ”が音声による回答によって決定され、回答結果データ２０ａが記憶された場合、想定回答５の“いいえ”に対応する質問情報１２が予め決められた優先順位に基づいて選択されることになる。例えば、患者に対する問診の場合、患者の状態を的確に把握することが求められるため、さらに、詳細に患者の状態を確認するために、“のどは痛いですか？”、“咳き込むことはありますか？”等の質問項目３を含む新たな質問情報１２が選択されることになる。すなわち、“熱がない”と判定されたことにより、熱以外の肉体的な不調が何かないかを探求するための質問項目３（質問情報１２）が予め設定され、上記処理により選択されることになる。

一方、“熱はありますか？”に対して、“はい”と想定回答５が決定された場合、当該熱についてのより詳細な質問が選択されるものであっても構わない。すなわち、“何度ぐらいですか？”、或いは“いつから続いていますか？”、“嘔吐はありますか？”等の質問項目３が選択され、熱の症状を発生させる疾病等の確認を行い、病状の診断の補助をすることができる。

そして、質問情報１２を抽出した後、ステップＳ１の処理に復帰し、抽出された質問情報１２に対応する回答情報１４を抽出し、上記ステップＳ１からステップＳ１２に係る処理を繰り返し行うことができる。その結果、複数の質問に回答した回答結果データ２０ａから患者の病状を正確に把握し、治療方針を決定するための補助をすることが可能となる。また、記憶された回答結果データ２０ａは、電子データとして保存されるため、これらを応用することにより、電子カルテ等の作成を容易にし、かつ電子カルテの利用促進を図ることができる。

一方、関連する新たな質問情報１２が上記のように予め設定された条件で検出されない場合（ステップＳ１１においてＮＯ）、前述したように、医師が直接質問情報１２を選択する旨の指示の有無を検出する（ステップＳ１３）。ここで、係る指示がある場合（ステップＳ１３においてＹＥＳ）、ステップＳ１の処理に戻り、上記と同様に、対応する回答情報１４の抽出処理を行い（ステップＳ２）、ステップＳ１からステップＳ１２に係る処理を繰り返す。これに対し、質問情報１２を選択する旨の指示がない場合（ステップＳ１３においてＮＯ）、患者に対して質問する質問項目３が全て終了したものとして、本システムを終了する（ステップＳ１４）。

その結果、本実施形態の認識システム１を用いることにより、予め記憶された質問情報１２及び回答情報１４に基づいて患者の状態を把握するための問診を音声認識によって行うことが可能となる。特に、患者が視認する液晶ディスプレイに質問項目３と該質問項目３から選択される想定回答選択肢４が同時に表示されるため、患者は無意識のうちに、想定回答選択肢４を構成する想定回答５のいずれか一つを選ぶように本システム１によって誘導され、想定回答５の表示内容通りに音声を発して回答するようになる。その結果、音声認識手段１９は、特に、当該想定回答５を音声認識の対象として音声の入力を待機し、係る想定回答５に含まれる認識対象語彙の音響的及び音声的な特性を分析し、これと同様の音響的及び音声的な特性を有する語彙を含む回答を想定回答５に決定することができる。すなわち、従来型の認識対象語彙の範囲が幅広い場合には、同音異義語等によって認識が著しくことなることがあるものの、本願発明の場合、予め患者の回答を誘導することにより、音声認識の認識率を著しく高くすることができる。

以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。

すなわち、本実施形態の認識システム１において、図４及び図５に主として示した認識装置２の処理の流れの一例について示したが、これに限定されるものではなく、各ステップの処理の流れが異なるものであっても構わない。例えば、既に説明したように、選択操作端末２７を用いて、質問者と回答者とが離間した場所にそれぞれ居る場合でも本願発明を利用することが可能である。このとき、選択操作端末２７は、質問情報１２の選択操作及びその他の閲覧表示等の簡易な機能を有するもので構成されているものを示したがこれに限定されるものではなく、例えば、本実施形態の認識システム１に係る認識装置２と同一機能を有するものであっても構わない。一方、患者が音声によって回答する認識装置は、患者の音声の入力を可能なマイク９と、各種情報等の閲覧表示可能な液晶ディスプレイからなる質問回答情報表示手段８と、これらを接続し、音声入力及び情報表示等の単機能の構成からなるものであっても構わない。すなわち、選択操作端末２７側で音声認識処理を行うものであってもよい。

本実施形態の認識システムの概略構成を示す説明図である。認識システムの認識装置の機能的構成を示すブロック図である。質問項目及び想定回答選択肢の画面表示例を示す説明図である。認識装置による音声認識の処理の流れの一例を示すフローチャートである。認識装置による音声認識の処理の流れの一例を示すフローチャートである。

符号の説明

１認識システム（回答音声認識システム）
２認識装置
３質問項目
４想定回答選択肢
５想定回答
６類似文字列群
７装置本体
８質問回答情報表示手段
９マイク
１０誘導音声入力手段
１１音声情報
１２質問情報
１３質問情報データベース
１４回答情報
１５回答情報データベース
１６質問回答情報記憶手段
１７質問回答情報抽出手段
１８質問回答情報出力制御手段
１９音声認識手段
２０回答結果記憶手段
２１関連質問情報抽出手段
２２類似文字列音声認識手段
２３ａ尤度算出手段
２３ｂ尤度決定手段
２７選択操作端末
２８質問情報選択手段
Ｘインターネット

Claims

回答者に対して問われる複数の質問項目を質問情報としてデータベース化して記憶する質問情報データベース、及び前記質問項目に対して前記回答者が回答すると予想され、音声認識のための認識対象語彙を含んで構成される多項目の想定回答によって構成された想定回答選択肢を回答情報としてデータベース化して記憶する回答情報データベースを有する質問回答情報記憶手段と、
前記質問情報データベースに記憶された複数の前記質問情報の中から一つが質問者によって選択され、その指定に係る入力を受付けるとともに、選択された前記質問情報及び対応する前記回答情報を抽出する質問回答情報抽出手段と、
抽出された前記質問情報及び前記回答情報を、視覚によって認識可能に表示するために出力する質問回答情報出力制御手段と、
前記質問回答情報出力制御手段によって出力された前記質問情報及び前記回答情報に基づいて、前記質問情報の前記質問項目及び前記回答情報の前記想定回答選択肢をそれぞれ表示し、前記回答者に対して提示する質問回答情報表示手段と、
表示された前記想定回答選択肢によって、前記質問項目に対する前記回答者の回答を前記想定回答選択肢のいずれか一つの前記想定回答に誘導するとともに、前記回答者の回答を音声によって受付け、音声情報として入力する誘導音声入力手段と、
受付けた前記回答の前記音声情報に含まれる前記認識対象語彙を検出し、前記認識対象語彙と音響的若しくは音声的に類似する語彙を含む前記想定回答を音声認識によって決定する音声認識手段と、
決定した前記想定回答を前記質問項目に対応する回答結果データとして記憶する回答結果記憶手段と
を具備することを特徴とする回答音声認識システム。
前記回答結果データに基づいて、前記質問情報データベースから関連する新たな前記質問情報を予め定められた抽出条件によって抽出する関連質問情報抽出手段をさらに具備することを特徴とする請求項１に記載の回答音声認識システム。
前記回答情報データベースは、
前記想定回答にそれぞれ対応し、前記認識対象語彙と類似する類似文字列を含む類似文字列群をさらに含んで記憶され、
前記音声認識手段は、
前記認識対象語彙と音響的若しくは音声的に類似する前記類似文字列を含む前記想定回答を音声認識によって決定する類似文字列音声認識手段をさらに具備することを特徴とする請求項１または請求項２に記載の回答音声認識システム。
前記音声認識手段は、
音声によって受付けた前記回答に含まれる語彙と、前記想定回答に含まれる前記認識対象語彙または前記類似文字列との音声認識尤度を算出する尤度算出手段と、
算出された前記音声認識尤度が、予め設定した閾値よりも大きな場合、前記回答に含まれる前記語彙を前記認識対象語彙または前記類似文字列として認識し、対応する前記想定回答として決定する尤度決定手段と
をさらに具備するることを特徴とする請求項３に記載の回答音声認識システム。
通信ネットワークを介して接続され、前記通信ネットワークを通じて前記質問情報データベースに記憶された複数の前記質問情報の中から一つを選択するための選択指示情報を送出可能な選択操作端末をさらに具備し、
前記質問回答情報抽出手段は、
受付けた前記選択指示情報に基づいて前記質問情報及び前記回答情報を抽出する選択抽出手段をさらに具備することを特徴とする請求項１乃至請求項４のいずれか一つに記載の回答音声認識システム。
前記質問項目は、
医師が前記回答者としての患者に対して実施する問診の内容を含み、
前記回答結果記憶手段は、
前記医師によって作成される電子カルテの入力を補助する入力補助手段をさらに具備することを特徴とする回答結果入力手段をさらに具備することを特徴とする請求項１乃至請求項５のいずれか一つに記載の回答音声認識システム。