JP2010054549A - 回答音声認識システム - Google Patents

回答音声認識システム Download PDF

Info

Publication number
JP2010054549A
JP2010054549A JP2008216258A JP2008216258A JP2010054549A JP 2010054549 A JP2010054549 A JP 2010054549A JP 2008216258 A JP2008216258 A JP 2008216258A JP 2008216258 A JP2008216258 A JP 2008216258A JP 2010054549 A JP2010054549 A JP 2010054549A
Authority
JP
Japan
Prior art keywords
answer
question
information
assumed
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008216258A
Other languages
English (en)
Inventor
Yuzo Takahashi
優三 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gifu University NUC
Original Assignee
Gifu University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gifu University NUC filed Critical Gifu University NUC
Priority to JP2008216258A priority Critical patent/JP2010054549A/ja
Publication of JP2010054549A publication Critical patent/JP2010054549A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】総合的な認識率の向上、及び周囲の雑音等の影響による受けることがなく、認識に係る処理時間を短縮する回答音声認識システムの提供を課題とする。
【解決手段】認識システム1は、装置本体7、装置本体7に接続した質問回答情報表示手段8、音声の回答を取得し、装置本体7に入力するマイク9を主に具備する。装置本体7は、音声を受付ける誘導音声入力手段10、データベース13,15を有する質問回答情報記憶手段16、質問情報12等を抽出する質問回答情報抽出手段17、質問情報12等を画面表示可能に出力する質問回答情報出力制御手段18、音声による回答を想定回答5の一つに視覚によって誘導し、入力受付をする誘導音声入力手段10、音声認識によって想定回答5を決定する音声認識手段19、決定された想定回答5を記憶する回答結果記憶手段20、及び関連する新たな質問情報12を抽出する関連質問情報抽出手段21を有する。
【選択図】図2

Description

本発明は、回答音声認識システムに関するものであり、特に、質問に対する回答を予め選定された選択肢に誘導し、当該選択肢に係る語彙を音声認識することにより、回答の音声認識率を向上させることが可能な回答音声認識システムに関するものである。
従来から、マイク等の音声入力手段によって取得された音声から語彙を認識する音声認識システムの開発がなされている。このシステムは、例えば、自動翻訳システムや自動議事録作成システム等の種々の分野に応用されている。特に、認識した音声によって、所定項目に対する入力を行うことにより、従来は手で記入していた、或いはキーボード等によって打ち込んでいた情報を簡易、かつ素早く入力することが可能となるものである。
ここで、一般的な音声認識の手法としては、統計的手法が多く利用されている。この場合、予め記録した複数の語彙についてのデータ(語彙データ)と、入力された音声データとの特徴を比較し、尤度を算出し、当該尤度が設定された閾値よりも高い場合に、音声データがその語彙であると認識し、これを表示または保存等の出力を行うものである。さらに、近年においては、種々の認識性能を向上させるための試みが行われている。例えば、語彙数の多いシステムの場合には、文脈依存性を考慮して認識率を高めたり、話し手の違い(男性、女性、子供等)の違いや、周囲の録音状況の違いに基づいて統計的な処理が為されることがある。しかしながら、周囲の雑音等の録音状況によって認識率が低下することは顕著なものであり、また、例えば、質問に対する回答を認識する場合、予め想定した回答に含まれる語彙とは全く異なった回答をする場合もあった。
そこで、語彙の認識率を向上させるために、例えば、「認識対象語彙に音響的に類似していない発生がなされた場合、これを的確にリジェクトすると共に、認識対象語彙を多少曖昧に発生入力した場合もこれをリジェクトしない入力音声リジェクト方法および装置」の開発が行われている(特許文献1参照)。
これによると、始めに、認識対象語彙からなる認識対象文字列を予め記憶しておき、当該文字列に音響的に類似する類似文字列を作成し、さらに認識対象文字列及び類似文字列にいずれも音響的に類似しないリジェクト文字列を作成しておく。そして、入力された音声に対して認識対象文字列及び類似文字列とリジェクト文字列との間で音声認識処理を行って、認識尤度の高い順に予め決められた認識結果内に、当該リジェクト文字列が一定の確度以上で存在した場合、認識対象文字列以外の発声であると判断するものである。一方、入力された音声が、類似文字列と間で認識尤度が高い場合、上記リジェクトを行わず、認識対象文字列が発声されたものと認識する。これにより、音声認識の認識率を向上させることが可能となる。
特開平9−244691号公報
しかしながら、上記音声認識技術及びシステムの場合、下記に掲げるような問題を生じることがあった。すなわち、上記の音声認識システムは、通常の会話で交わされる音声を認識するものであり、その会話に含まれる語彙を制限することができず、自由な会話によって音声入力が行われるものであった。そのため、話し手(発声者)は、何ら会話の中に含まれる語彙に注意を払う必要はなく、会話の内容が規制されることはなかった。
しかしながら、自由な会話のため、当該会話に含まれる語彙の中に、音声的に類似しない語彙が入力された場合、当該語彙はリジェクトされるため、総合的に音声の認識率が低下することがあった。ここで、音声的に類似しない音声入力を含めて認識した場合、周囲の雑音を認識対象語彙として誤認識するおそれがあった。さらに、予めリジェクト用の文字列を準備しておく必要があり、係る文字列をデータベース化して記憶するために多くのメモリ量(記憶容量)を確保する必要があった。その結果、リジェクト用文字列と音声入力された音声との比較とのために認識時間が多く必要となり、音声認識に係る処理に負担を生じることがあった。そのため、複雑な会話の場合、話し手による会話をリアルタイムで音声認識することが困難となることがあった。
そこで、本発明は、上記実情に鑑み、総合的な認識率の向上をさせることを目的とし、かつ、周囲の雑音等の影響を受けることがなく、認識に係る処理時間を短縮することが可能な回答音声認識システムの提供を課題とするものである。
上記の課題を解決するため、本発明の回答音声認識システムは、「回答者に対して問われる複数の質問項目を質問情報としてデータベース化して記憶する質問情報データベース、及び前記質問項目に対して前記回答者が回答すると予想され、音声認識のための認識対象語彙を含んで構成される多項目の想定回答によって構成された想定回答選択肢を回答情報としてデータベース化して記憶する回答情報データベースを有する質問回答情報記憶手段と、前記質問情報データベースに記憶された複数の前記質問情報の中から一つが質問者によって選択され、その指定に係る入力を受付けるとともに、選択された前記質問情報及び対応する前記回答情報を抽出する質問回答情報抽出手段と、抽出された前記質問情報及び前記回答情報を、視覚によって認識可能に表示するために出力する質問回答情報出力制御手段と、前記質問回答情報出力制御手段によって出力された前記質問情報及び前記回答情報に基づいて、前記質問情報の前記質問項目及び前記回答情報の前記想定回答選択肢をそれぞれ表示し、前記回答者に対して提示する質問回答情報表示手段と、表示された前記想定回答選択肢によって、前記質問項目に対する前記回答者の回答を前記想定回答選択肢のいずれか一つの前記想定回答に誘導するとともに、前記回答者の回答を音声によって受付け、音声情報として入力する誘導音声入力手段と、受付けた前記回答の前記音声情報に含まれる前記認識対象語彙を検出し、前記認識対象語彙と音響的若しくは音声的に類似する語彙を含む前記想定回答を音声認識によって決定する音声認識手段と、決定した前記想定回答を前記質問項目に対応する回答結果データとして記憶する回答結果記憶手段と」を主に具備して構成されている。
ここで、質問情報データベースとは、回答者に対して問われる質問を予め記憶したものであり、例えば、質問者が医師で、回答者が患者の場面においてなされる問診の場合には、“熱はありませんか?”、或いは“どこか痛いところはありませんか?”、“いつから症状が続いていますか?”等の患者の病状を把握するために必要な質問を含んでなるものである。これに対し、回答情報データベースの回答情報は、上記質問に対する回答を選択肢の形式で記憶したものであり、最も単純な“はい”、“いいえ”の二択、さらに、“わかりません”等を加えた、三択のものが採用される。さらには、“いつから症状が続いていますか?”に対しては、“昨日から”、“一週間前から”、“一ヶ月前から”等の期間に係る情報を音声認識するための選択肢等を含んで構成されている。
さらに、質問回答情報表示手段とは、抽出された質問情報の質問項目及び対応する想定回答選択肢が、画面等に表示されることにより、回答者が視覚を通じて認識することが可能とするものである。さらに、誘導音声入力手段とは、表示された質問項目に対する回答を、想定回答選択肢に誘導して答えさせて、これを音声入力するものである。すなわち、想定回答選択肢が表示された場合、回答者は無意識のうちに、質問項目に対する回答を、その想定回答選択肢の中から一つを選び、さらに想定回答選択肢に表示されたままの語彙を発声し、回答しようとすることが多い。その結果、回答者の回答が想定回答選択肢のいずれか一つの想定回答に誘導されることとなる。一方、音声認識手段とは、上述した従来の音声認識に係る技術を応用することが可能であり、予め認識対象の語彙の音声に係る語彙データをデータベース化し、これと入力された音声との尤度を算出することにより、想定回答選択肢のうちのいずれかが発声されたかを認識することが可能となる。
したがって、本発明の回答音声認識システムによれば、質問に対する回答が画面上に表示されるため、回答者の回答を無意識に当該選択肢のいずれかに誘導することができる。その結果、音声認識手段は、想定された想定回答選択肢の語彙に限定して音声入力がなされることを待機し、音声入力がされた場合、想定回答選択肢の語彙を認識することができる。これにより、音声の認識率の向上が図られる。さらに、特定の語彙のみを集中的に認識するために、当該語彙に類似しない語彙や周囲の雑音等の影響を受けることがない。
さらに、本発明の回答音声認識システムは、上記構成に加え、「前記回答結果データに基づいて、前記質問情報データベースから関連する新たな前記質問情報を予め定められた抽出条件によって抽出する関連質問情報抽出手段」を具備するものであっても構わない。
したがって、本発明の回答音声認識システムによれば、回答者の回答を音声認識するとともに、認識した回答に応じて次に質問を抽出することが可能となる。例えば、“熱はありますか?”という質問に対し、“はい”という音声による回答を認識した場合、次に想定される質問として、“何度ぐらいありますか?”、“いつから熱が続いていますか?”等の患者の様態をより深く把握するための詳細な質問を行うことができる。一方、“いいえ”という音声による回答を認識した場合には、“どこか痛いところはありませんか?”等の熱に関する質問以外の質問を抽出することとなる。これにより、複数の質問を抽出する手間を省略することができ、例えば、問診の場合、一つの質問を指定することにより、患者の病状についての必要な情報を得ることが可能となる。ここで、各質問情報の間には、回答に対する関連度を定義した質問関連値を含み、最も質問関連値の高い質問情報が次の質問として自動的に抽出されることとなる。この場合の抽出条件は、各想定回答に対し、次の質問情報を直接指定している場合はその指定に基づいて抽出がなされ、或いは抽出条件に従って複数の質問情報が検出された場合、最も優先的に抽出される質問情報を決定するために利用される。
さらに、本発明の回答音声認識システムは、上記構成に加え、「前記回答情報データベースは、前記想定回答にそれぞれ対応し、前記認識対象語彙と類似する類似文字列を含む類似文字列群をさらに含んで記憶され、前記音声認識手段は、前記認識対象語彙と音響的若しくは音声的に類似する前記類似文字列を含む前記想定回答を音声認識によって決定する類似文字列音声認識手段」を具備するものであっても構わない。
ここで、ある一つの質問に対し、“はい”、“いいえ”、“わかりません”が想定回答選択肢として表示された場合、“はい”に対しては、例えば、「はーい」、「はぁ」、「はいっ!」等の類似する回答が想定され、“いいえ”に対しては、例えば、「いえ」、「いーえ」等の類似する回答が想定され、“わかりません”に対しては、「わからない」、「しりません」等の類似する回答が想定される。そのため、これらの“はーい”等の想定回答と音響的に類似する類似文字列を含む類似文字列群が回答情報データベースの回答情報の中に含んで記憶される。
したがって、本発明の回答音声認識システムによれば、想定回答に対して類似する類似文字列を含む類似文字列群がさらに含んで記憶され、音声による回答の際に、これらの類似文字列を含む回答がなされた場合には対応する想定回答が回答されたものとして認識されることになる。これにより、想定回答の認識範囲が広くなり、音声による回答の認識率を向上させることができる。
さらに、本発明の回答音声認識システムは、上記構成に加え、「前記音声認識手段は、音声によって受付けた前記回答に含まれる語彙と、前記想定回答に含まれる前記認識対象語彙または前記類似文字列との音声認識尤度を算出する尤度算出手段と、算出された前記音声認識尤度が、予め設定した閾値よりも大きな場合、前記回答に含まれる前記語彙を前記認識対象語彙または前記類似文字列として認識し、対応する前記想定回答として決定する尤度決定手段と」を具備するものであっても構わない。
したがって、本発明の回答音声認識システムによれば、例えば、想定回答として“はい”及び“いいえ”が設定されている場合、音声による回答が“えぇー”等の“はい”または“いいえ”のどちらかに簡易に判別できないような発声がなされることがある。係る場合において、統計的手法によって音声認識尤度を算出することにより、“はい”及び“いいえ”のいずれかに決定することが可能となる。
さらに、本発明の回答音声認識システムは、上記構成に加え、「通信ネットワークを介して接続され、前記通信ネットワークを通じて前記質問情報データベースに記憶された複数の前記質問情報の中から一つを選択するための選択指示情報を送出可能な選択操作端末をさらに具備し、前記質問回答情報抽出手段は、受付けた前記選択指示情報に基づいて前記質問情報及び前記回答情報を抽出する選択抽出手段を」具備するものであっても構わない。
したがって、本発明の回答音声認識システムによれば、選択操作端末を利用して質問情報の抽出を指示することにより、質問者と回答者とが離間している場合であっても質問に対する回答を音声認識することが可能となる。これにより、例えば、都市部の病院と過疎地の病院或いは患者の自宅等をインターネットを介して接続し、患者の病状の把握をすることが可能となる。
さらに、本発明の回答音声認識システムは、上記構成に加え、「前記質問項目は、医師が前記回答者としての患者に対して実施する問診の内容を含み、前記回答結果記憶手段は、前記医師によって作成される電子カルテの入力を補助する入力補助手段を」具備するものであっても構わない。
したがって、本発明の回答音声認識システムによれば、質問者としての医師及び回答者としての患者の間の会話を音声認識し、電子カルテの作成に利用することが可能となる。
本発明の効果によれば、予め想定される回答を想定回答選択肢として質問とともに画面表示することにより、回答者は当該想定回答選択肢を視認し、その想定回答選択肢を発声して回答するように誘導することが可能となる。その結果、音声認識手段は、特に想定回答選択肢に含まれる語彙を集中的に認識するように設定することができ、これにより音声の認識率の向上を図ることができる。
以下、本発明の一実施形態の回答音声認識システム1(以下、単に「認識システム1」と称す)について、図1乃至図5に基づいて説明する。ここで、図1は本実施形態の認識システム1の概略構成を示す説明図であり、図2は認識システム1の認識装置2の機能的構成を示すブロック図であり、図3は質問項目3及び想定回答選択肢4の画面表示例を示す説明図であり、図4及び図5は認識装置2による音声認識の処理の流れの一例を示すフローチャートである。
ここで、本実施形態の認識システム1は、医師及び患者の間で介される会話である問診の内容を音声認識し、患者の状態を把握することを容易にし、かつ得られた認識結果に基づいて電子カルテへの各種データの入力を補助するものについて例示する。そのため、音声認識手段19(詳細は後述する)によって認識される認識対象語彙は、特に医療用語について特化したものが予めデータベースに登録されており、医療用語についての認識率が高められている。ここで、患者が本発明における回答者に相当する。また、医者が患者に対して質問する質問項目3に係る質問情報12を選択する旨の指示を操作によって出すことができるようにされている。
本実施形態の認識システム1は、図1乃至図5に示すように、質問者としての医師及び回答者としての患者による問診の会話を音声入力し、当該会話に含まれる認識対象語彙を音声認識するものであり、主に認識装置2によって構成されている。ここで、認識装置2は、市販のパーソナルコンピュータを応用して構築することが可能であり、各種処理及び制御をするための装置本体7と、装置本体7と接続され、後述する質問回答情報表示手段8として機能する液晶表示ディスプレイとによって構成されている。さらに、装置本体7には、問診の会話に係る音声を音声データとして入力するためのマイク9が接続されている。ここで、マイク9は、後述する誘導音声入力手段10の一部機能を有している。
さらに詳細に説明すると、装置本体7は、マイク9によって取得された音声を音声情報11として受付け、入力するための誘導音声入力手段10と、患者に対して質問される複数の質問項目3を質問情報12としてデータベース化して記憶する質問情報データベース13、及び質問項目3に対して患者が回答するであろうと予想され、音声認識のための認識対象語彙を含んで構成される多項目の想定回答5によって択一的に示された想定回答選択肢4を回答情報14としてデータベース化して記憶する回答情報データベース15を有する質問回答情報記憶手段16と、記憶された質問情報データベース13の中から一つの質問情報12が、医師によって選択される指示の入力がなされると、選択された質問情報12及び該質問情報12に対応して記憶された回答情報14を回答情報データベース15から抽出する質問回答情報抽出手段17と、抽出された質問情報12及び対応する回答情報14を装置本体7と接続した液晶ディスプレイからなる質問回答情報表示手段8に出力し、患者が質問項目3及び想定回答選択肢4を視覚によって認識可能に表示するための質問回答情報出力制御手段18と、質問情報12及び回答情報14によって画面表示された想定回答選択肢4の中のいずれか一つの想定回答5に、患者の回答を視覚によって誘導し、患者によって発せられた音声による回答の入力を受付ける誘導音声入力手段10と、音声によって受付けた回答に含まれる認識対象語彙を回答情報データベース15から検出し、音響的若しくは音声的(言語的)に類似する認識対象語彙を含む想定回答5を決定する音声認識手段19と、音声認識され、決定された想定回答5を、患者による回答として質問情報12に対応して記憶する回答結果記憶手段20と、記憶された回答結果に基づいて質問情報データベース13に記憶された複数の質問情報12の中から、関連する新たな質問情報12を抽出する関連質問情報抽出手段21とを主に具備して構成されている。
さらに詳細に説明すると、質問回答情報記憶手段16に記憶された回答情報データベース15の中には、想定回答選択肢4を構成するそれぞれの想定回答5に対応し、かつ認識対象語彙と類似する複数の類似文字列を含む類似文字列群6がデータとして記憶されている。一方、音声認識手段19は、患者の回答に含まれる認識対象語彙と音響的若しくは音声的(言語的)に類似する上記の類似文字列を類似文字列群6の中から対比によって認識し、当該類似文字列に類似しうる想定回答5を患者による回答結果として決定する類似文字列音声認識手段22をさらに具備して構成されている(図2参照)。
ここで、音声認識手段19は、音声による回答に含まれる語彙と、想定回答5に対応して予め記憶された認識対象語彙若しくは類似文字列との間の音声認識尤度に基づいて音声認識に係る処理がされている。そのため、係る音声認識尤度を算出する尤度算出手段23aと、算出された音声認識尤度によって想定回答5を決定する尤度決定手段23bとを有している。これにより、算出された音声認識尤度が予め設定した閾値よりも高い場合、認識した回答を想定回答5の一つとして判断する処理が行われる音声認識尤度の算出は、従来の音声認識技術処理を応用することが可能であり、ここでは詳細な説明は省略するものとする。
この場合、患者の発した音声による回答を音声信号として入力を受付け、当該音声信号の特徴に照らし合わせながら統計的処理によって、尤もらしい認識対象語彙(言語系列)を選定し、その確度に応じて認識結果として出力するものである。ここで、音声認識処理においては、一般に音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。ここで、音響的な特徴とは、例えば、認識対象語彙の音素がどのような周波数特性を有しているかを数値化(若しくはグラフ化)して表したものであり、混合正規分布を出力確率とした所謂「隠れマルコフモデル」によって、音響的に類似するモデル(音響モデル)を表現することができる。一方、言語的な特徴とは、例えば、特定の音素の並び方によって、次に出現する可能性の高い音素を一定条件の制約に基づいて決定するものであり、例えば、「わたし(wa−ta−shi)」の後には、「は(ha)」、「が(ga)」、及び「を(wo)」等の出現確率が高いことを考慮し、次に発声される確率の高い音素に制限して音声認識を実行するものである。係る構成を適宜組合わせることにより、認識率の向上を図っている。
さらに、本実施形態の認識システム1に係る認識装置2は、その他の構成として、キーボード及びマウス等の操作手段24とを具備し、該操作手段24は、装置本体7の内部に構築された操作制御手段25を介して装置本体7に操作に係る命令信号等を送出することができる。さらに、装置本体7は、インターネットXと接続し、種々のデータ及び情報の送受を行うための送受信制御手段26を内部に有している。
加えて、本実施形態の認識システム1は、図1に示すように、認識装置2の設置された場所から離間した遠隔地に選択操作端末27が設けられ、インターネットXを通じて各種指示及び認識装置2による音声認識の状況を把握することができるようになっている。具体的に説明すると、質問情報データベース13の中から患者に対して質問する質問項目3を含む質問情報12を一つ選択し、当該質問情報12に対する回答情報14の入力を求めることが可能な質問情報選択手段28に係る構成を選択操作端末27は具備している。ここで、選択操作端末27は、その他の一般的な構成として、各種指示及び命令等の入力を行うためのキーボード等の操作手段29と接続した操作制御手段30と、インターネットXと接続し、データ等の送受を行うための送受信制御手段31と、質問情報12を選択するために、質問情報データベース13の内容を閲覧し、さらに質問情報12の選択後に認識装置2によってなされる音声認識処理の様子を確認するために、認識装置2の質問回答情報表示手段8と同一内容の画面表示を出力制御する表示出力制御手段32及び表示出力制御手段32と接続した液晶ディスプレイからなる表示手段33とを具備して構成されている。これにより、医師及び患者が離間して位置している場合、例えば、都市部の医療施設と地方の医療施設にそれぞれ居る場合であっても、インターネットXを通じた問診を行うことが可能となる。この場合、各表示手段8,33に相手先の画面を表示するテレビ会議システムのようなものを構築し、相手の顔や表情を確認しながら問診を行うものであっても構わない。ここで、選択操作端末27は、市販のパーソナルコンピュータを利用することが可能である。
次に、本実施形態の認識システム1の認識装置2による音声認識の処理の一例について、図4及び図5に基づいて説明する。まず、認識装置2は、質問回答情報記憶手段16に記憶された質問情報データベース13の中から、患者に対して質問する質問項目3に相当する質問情報12を選択の指示の有無を検出する(ステップS1)。この選択は、質問者である医師が認識装置2の操作手段24を操作し、質問情報データベース13の内容を質問回答情報表示手段8に読出し、これを閲覧し、直接選択するもの、或いは上述した選択操作端末27を操作し、インターネットXを通じて当該選択する旨の信号を認識装置2に対して送るもののいずれであっても構わない。
認識装置2は、上記いずれかの方法によって一の質問情報12を選択する旨の指示を検出すると(ステップS1においてYES)、これを受付けるとともに、質問回答情報記憶手段16に記憶された回答情報データベース15の複数の回答情報14の中から、選択された質問情報12に対応する条件に合致する回答情報14を抽出する(ステップS2)。ここで、回答情報14の検索及び抽出は、予めそれぞれの質問情報12及び回答情報14を各データベース13,15に登録し、記憶する際に互いの対向関係を示す同一の関連コードがそれぞれ付され、質問情報12と回答情報14とが一対一の対応関係になるように設定されている。これにより、質問情報12の選択により、回答情報14が速やかに抽出される。なお、本実施形態の認識システム1においては、質問情報12と回答情報14をそれぞれ別個のデータベース13,15に記憶するものを示したが、例えば、一対の質問情報12及び回答情報14を一つにまとめ、質問項目3及び想定回答選択肢4をセットにしたデータベースを構築するものであっても構わない。一方、上記手段によって質問情報12の検出が確認されない場合、認識装置2は、上記ステップS1の処理を繰り返し、何らかの手段によって質問情報12の選択する旨の指示があるまで待機することとなる。
質問情報12の選択及び回答情報14の抽出がなされた後、認識装置2は、質問回答情報表示手段8に選択及び抽出された情報に基づいて、それぞれの質問項目3及び複数の想定回答5からなる想定回答選択肢4を画面上に表示する(ステップS3:図3参照)。本実施形態では、図3に示すように、“熱はありますか?”のような問いかけが質問項目3に相当し、一方、“はい”、“いいえ”、“わかりません”のそれぞれが想定回答5に相当し、これら3つの想定回答5を合わせたものが想定回答選択肢4となる。ここで、質問の開始直後は、細部についての質問よりも、患者の状態を大まかに把握するための一般的な質問がなされることが好適である。すなわち、医師が患者に対して問診を行うように、大まかな質問から詳細についての質問に徐々に変化させることが好ましい。
ここで、本実施形態の場合、前述したように、“熱はありますか?”との質問項目3に対し、“はい”、“いいえ”、“わかりません”の三つの想定回答5から想定回答選択肢4が表示される。そして、この質問に対する回答は、三つの想定回答5の内のいずれか一つが必ず音声による回答によって選択されることになる。このとき、想定回答選択肢4(複数の想定回答5)は必ず回答者である患者に対して視覚を通じて認識可能なように、質問回答情報表示手段8(液晶ディスプレイ等)の表示画面に表示する必要がある。また、上記の画面表示のタイミングと同時に、音声合成処理によって構築した質問項目3及び想定回答選択肢4と同一内容の音声データをスピーカーから発する処理を行ってもよい。これにより、目の悪い患者等であって、画面表示された想定回答選択肢4が十分に視認できないケースでも、聴覚を通じて患者に認識対象語彙を含む想定回答選択肢4を提示することができる。
質問項目3及び想定回答選択肢4が質問回答情報表示手段8に出力表示された後、認識装置2は、表示された質問項目3に対する回答が音声によって発せられ、マイク9によって取得された当該音声による回答の音声情報11の有無を検出する(ステップS4)。ここで、質問回答情報表示手段8には、質問項目3及び想定回答選択肢4の双方が表示されているため、その表示を視認した患者(回答者)は、質問に対する回答をその想定回答選択肢4の想定回答5から選択しようとする気持ちが無意識に働く。その結果、音声によって質問項目3に対する回答を行う場合、患者は表示された想定回答選択肢4のうちのいずれか一つの想定回答5をそのまま読み上げるようにして回答する可能性が高くなる。すなわち、本実施形態の認識システム1によれば、質問項目3及び想定回答選択肢4を同一画面で同じタイミングで画面表示することにより、質問項目3に対する回答が無限に考えられる状況においても、予め設定した想定回答5と同一若しくは類似する回答を音声によって行うように、想定回答5に無意識に誘導することができる。すなわち、従来のように、リジェクト用の文字列を予めメモリしておく必要がなく、特に、想定回答5及び後述する類似文字列群6に属する類似文字列を対象に音声認識の処理を限定することができる。これにより、音声認識による認識率を向上させることができる。
そして、認識装置2は、上記作用によって誘導された結果、表示された想定回答5を構成する認識対象語彙を含むようにして発声され、マイク9によって取得された音声による回答(音声情報11)が検出された場合(ステップS4においてYES)、当該音声情報を受付ける(ステップS5)。そして、受付けた音声情報11の中から、想定回答5に対応する認識対象語彙若しくは認識対象語彙に類似し、予め類似文字列群6に記憶された複数の類似文字列と類似する語彙を検出し、統計的手法によって音声認識尤度を算出する(ステップS6)。一方、音声による回答が検出されず、音声情報11の取得がない場合(ステップS4においてNO)、認識装置2はステップS4の処理を継続し、音声による回答の検出を継続する。ここで、図3において、各想定回答5に対する類似文字列群6の一例(図3における破線枠内参照)を示したが、実際の質問回答情報表示手段8には、類似文字列群6に関する表示はなされない。
その後、算出された音声認識尤度と予め設定した閾値(例えば、音声認識尤度が60%以上)との比較を行う(ステップS7)。すなわち、予め設定した閾値よりも音声認識尤度が高い場合(ステップS7においてYES)、音声認識された語彙が想定回答5に相当するものと決定され(ステップS8)、質問項目3に対する回答結果として、質問情報12に対応して回答結果データ20aが記憶される(ステップS9)。
一方、設定した閾値よりも音声認識尤度が低い場合(ステップS7においてNO)、当該音声による回答は、想定回答5と認識できないものと判断され、係る旨が質問回答情報表示手段8に表示され(ステップS10)、再びステップS4の処理に戻る。例えば、質問項目3の“熱はありますか?”に対して、“あります”のように、想定回答5の“はい”と同一・類似の意味を有する回答を音声によって行ったとしても、類似文字列とは音響的に相違するため、想定回答5として決定されることはない。しかしながら、先に説明したように、想定回答選択肢4の画面表示によって、想定回答5に音声による回答が誘導されているため、このような状況に遭遇する可能性は、一般の自由会話に比べて著しく低いものとなる。なお、音声認識処理による統計的手法及び音声認識尤度等の詳細については、周知の技術であるため、ここでは詳細な説明は省略する。
その後、質問項目3に対する想定回答5が決定され、回答結果データ20aとして記憶されると、認識装置2は決定された想定回答5に応じ、関連する次の新たな質問情報12が指定されているか否かを検出する(ステップS11)。ここで、想定回答5を含む回答情報14に、各想定回答5が決定された場合の次の質問情報12に関する指定を含むコード若しくは情報が含まれている場合、関連する新たな質問情報12が有るもの判断され(ステップS11においてYES)、当該指定に基づいて質問情報12を抽出する(ステップS12)。一方、回答情報14にそのような旨の指定がなされていない場合(ステップS11においてNO)、ステップS12の処理をキャンセルし、質問者である医師によって新たな質問情報12を選択する旨の指示の有無について検出する(ステップS13)。
係る処理について具体的に説明すると、上述した質問項目3の“熱はありますか?”に対し、例えば、想定回答5の“いいえ”が音声による回答によって決定され、回答結果データ20aが記憶された場合、想定回答5の“いいえ”に対応する質問情報12が予め決められた優先順位に基づいて選択されることになる。例えば、患者に対する問診の場合、患者の状態を的確に把握することが求められるため、さらに、詳細に患者の状態を確認するために、“のどは痛いですか?”、“咳き込むことはありますか?”等の質問項目3を含む新たな質問情報12が選択されることになる。すなわち、“熱がない”と判定されたことにより、熱以外の肉体的な不調が何かないかを探求するための質問項目3(質問情報12)が予め設定され、上記処理により選択されることになる。
一方、“熱はありますか?”に対して、“はい”と想定回答5が決定された場合、当該熱についてのより詳細な質問が選択されるものであっても構わない。すなわち、“何度ぐらいですか?”、或いは“いつから続いていますか?”、“嘔吐はありますか?”等の質問項目3が選択され、熱の症状を発生させる疾病等の確認を行い、病状の診断の補助をすることができる。
そして、質問情報12を抽出した後、ステップS1の処理に復帰し、抽出された質問情報12に対応する回答情報14を抽出し、上記ステップS1からステップS12に係る処理を繰り返し行うことができる。その結果、複数の質問に回答した回答結果データ20aから患者の病状を正確に把握し、治療方針を決定するための補助をすることが可能となる。また、記憶された回答結果データ20aは、電子データとして保存されるため、これらを応用することにより、電子カルテ等の作成を容易にし、かつ電子カルテの利用促進を図ることができる。
一方、関連する新たな質問情報12が上記のように予め設定された条件で検出されない場合(ステップS11においてNO)、前述したように、医師が直接質問情報12を選択する旨の指示の有無を検出する(ステップS13)。ここで、係る指示がある場合(ステップS13においてYES)、ステップS1の処理に戻り、上記と同様に、対応する回答情報14の抽出処理を行い(ステップS2)、ステップS1からステップS12に係る処理を繰り返す。これに対し、質問情報12を選択する旨の指示がない場合(ステップS13においてNO)、患者に対して質問する質問項目3が全て終了したものとして、本システムを終了する(ステップS14)。
その結果、本実施形態の認識システム1を用いることにより、予め記憶された質問情報12及び回答情報14に基づいて患者の状態を把握するための問診を音声認識によって行うことが可能となる。特に、患者が視認する液晶ディスプレイに質問項目3と該質問項目3から選択される想定回答選択肢4が同時に表示されるため、患者は無意識のうちに、想定回答選択肢4を構成する想定回答5のいずれか一つを選ぶように本システム1によって誘導され、想定回答5の表示内容通りに音声を発して回答するようになる。その結果、音声認識手段19は、特に、当該想定回答5を音声認識の対象として音声の入力を待機し、係る想定回答5に含まれる認識対象語彙の音響的及び音声的な特性を分析し、これと同様の音響的及び音声的な特性を有する語彙を含む回答を想定回答5に決定することができる。すなわち、従来型の認識対象語彙の範囲が幅広い場合には、同音異義語等によって認識が著しくことなることがあるものの、本願発明の場合、予め患者の回答を誘導することにより、音声認識の認識率を著しく高くすることができる。
以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。
すなわち、本実施形態の認識システム1において、図4及び図5に主として示した認識装置2の処理の流れの一例について示したが、これに限定されるものではなく、各ステップの処理の流れが異なるものであっても構わない。例えば、既に説明したように、選択操作端末27を用いて、質問者と回答者とが離間した場所にそれぞれ居る場合でも本願発明を利用することが可能である。このとき、選択操作端末27は、質問情報12の選択操作及びその他の閲覧表示等の簡易な機能を有するもので構成されているものを示したがこれに限定されるものではなく、例えば、本実施形態の認識システム1に係る認識装置2と同一機能を有するものであっても構わない。一方、患者が音声によって回答する認識装置は、患者の音声の入力を可能なマイク9と、各種情報等の閲覧表示可能な液晶ディスプレイからなる質問回答情報表示手段8と、これらを接続し、音声入力及び情報表示等の単機能の構成からなるものであっても構わない。すなわち、選択操作端末27側で音声認識処理を行うものであってもよい。
本実施形態の認識システムの概略構成を示す説明図である。 認識システムの認識装置の機能的構成を示すブロック図である。 質問項目及び想定回答選択肢の画面表示例を示す説明図である。 認識装置による音声認識の処理の流れの一例を示すフローチャートである。 認識装置による音声認識の処理の流れの一例を示すフローチャートである。
符号の説明
1 認識システム(回答音声認識システム)
2 認識装置
3 質問項目
4 想定回答選択肢
5 想定回答
6 類似文字列群
7 装置本体
8 質問回答情報表示手段
9 マイク
10 誘導音声入力手段
11 音声情報
12 質問情報
13 質問情報データベース
14 回答情報
15 回答情報データベース
16 質問回答情報記憶手段
17 質問回答情報抽出手段
18 質問回答情報出力制御手段
19 音声認識手段
20 回答結果記憶手段
21 関連質問情報抽出手段
22 類似文字列音声認識手段
23a 尤度算出手段
23b 尤度決定手段
27 選択操作端末
28 質問情報選択手段
X インターネット

Claims (6)

  1. 回答者に対して問われる複数の質問項目を質問情報としてデータベース化して記憶する質問情報データベース、及び前記質問項目に対して前記回答者が回答すると予想され、音声認識のための認識対象語彙を含んで構成される多項目の想定回答によって構成された想定回答選択肢を回答情報としてデータベース化して記憶する回答情報データベースを有する質問回答情報記憶手段と、
    前記質問情報データベースに記憶された複数の前記質問情報の中から一つが質問者によって選択され、その指定に係る入力を受付けるとともに、選択された前記質問情報及び対応する前記回答情報を抽出する質問回答情報抽出手段と、
    抽出された前記質問情報及び前記回答情報を、視覚によって認識可能に表示するために出力する質問回答情報出力制御手段と、
    前記質問回答情報出力制御手段によって出力された前記質問情報及び前記回答情報に基づいて、前記質問情報の前記質問項目及び前記回答情報の前記想定回答選択肢をそれぞれ表示し、前記回答者に対して提示する質問回答情報表示手段と、
    表示された前記想定回答選択肢によって、前記質問項目に対する前記回答者の回答を前記想定回答選択肢のいずれか一つの前記想定回答に誘導するとともに、前記回答者の回答を音声によって受付け、音声情報として入力する誘導音声入力手段と、
    受付けた前記回答の前記音声情報に含まれる前記認識対象語彙を検出し、前記認識対象語彙と音響的若しくは音声的に類似する語彙を含む前記想定回答を音声認識によって決定する音声認識手段と、
    決定した前記想定回答を前記質問項目に対応する回答結果データとして記憶する回答結果記憶手段と
    を具備することを特徴とする回答音声認識システム。
  2. 前記回答結果データに基づいて、前記質問情報データベースから関連する新たな前記質問情報を予め定められた抽出条件によって抽出する関連質問情報抽出手段をさらに具備することを特徴とする請求項1に記載の回答音声認識システム。
  3. 前記回答情報データベースは、
    前記想定回答にそれぞれ対応し、前記認識対象語彙と類似する類似文字列を含む類似文字列群をさらに含んで記憶され、
    前記音声認識手段は、
    前記認識対象語彙と音響的若しくは音声的に類似する前記類似文字列を含む前記想定回答を音声認識によって決定する類似文字列音声認識手段をさらに具備することを特徴とする請求項1または請求項2に記載の回答音声認識システム。
  4. 前記音声認識手段は、
    音声によって受付けた前記回答に含まれる語彙と、前記想定回答に含まれる前記認識対象語彙または前記類似文字列との音声認識尤度を算出する尤度算出手段と、
    算出された前記音声認識尤度が、予め設定した閾値よりも大きな場合、前記回答に含まれる前記語彙を前記認識対象語彙または前記類似文字列として認識し、対応する前記想定回答として決定する尤度決定手段と
    をさらに具備するることを特徴とする請求項3に記載の回答音声認識システム。
  5. 通信ネットワークを介して接続され、前記通信ネットワークを通じて前記質問情報データベースに記憶された複数の前記質問情報の中から一つを選択するための選択指示情報を送出可能な選択操作端末をさらに具備し、
    前記質問回答情報抽出手段は、
    受付けた前記選択指示情報に基づいて前記質問情報及び前記回答情報を抽出する選択抽出手段をさらに具備することを特徴とする請求項1乃至請求項4のいずれか一つに記載の回答音声認識システム。
  6. 前記質問項目は、
    医師が前記回答者としての患者に対して実施する問診の内容を含み、
    前記回答結果記憶手段は、
    前記医師によって作成される電子カルテの入力を補助する入力補助手段をさらに具備することを特徴とする回答結果入力手段をさらに具備することを特徴とする請求項1乃至請求項5のいずれか一つに記載の回答音声認識システム。
JP2008216258A 2008-08-26 2008-08-26 回答音声認識システム Pending JP2010054549A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008216258A JP2010054549A (ja) 2008-08-26 2008-08-26 回答音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008216258A JP2010054549A (ja) 2008-08-26 2008-08-26 回答音声認識システム

Publications (1)

Publication Number Publication Date
JP2010054549A true JP2010054549A (ja) 2010-03-11

Family

ID=42070594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008216258A Pending JP2010054549A (ja) 2008-08-26 2008-08-26 回答音声認識システム

Country Status (1)

Country Link
JP (1) JP2010054549A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013156844A (ja) * 2012-01-30 2013-08-15 Toshiba Tec Corp 医療支援装置およびプログラム
KR101728598B1 (ko) * 2012-03-28 2017-04-19 후지쯔 가부시끼가이샤 회답 지원 서버, 회답 지원 시스템, 회답 지원 방법 및 기록 매체
WO2017175351A1 (ja) * 2016-04-07 2017-10-12 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JP2019020775A (ja) * 2017-07-11 2019-02-07 株式会社Nttドコモ 情報処理装置
CN112634889A (zh) * 2020-12-15 2021-04-09 平安国际智慧城市科技股份有限公司 基于人工智能的电子病例录入方法、装置、终端及介质
CN113192500A (zh) * 2020-01-29 2021-07-30 丰田自动车株式会社 代理装置、代理系统以及非暂时性记录介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013156844A (ja) * 2012-01-30 2013-08-15 Toshiba Tec Corp 医療支援装置およびプログラム
KR101728598B1 (ko) * 2012-03-28 2017-04-19 후지쯔 가부시끼가이샤 회답 지원 서버, 회답 지원 시스템, 회답 지원 방법 및 기록 매체
WO2017175351A1 (ja) * 2016-04-07 2017-10-12 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JPWO2017175351A1 (ja) * 2016-04-07 2018-08-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US10839800B2 (en) 2016-04-07 2020-11-17 Sony Interactive Entertainment Inc. Information processing apparatus
JP2019020775A (ja) * 2017-07-11 2019-02-07 株式会社Nttドコモ 情報処理装置
CN113192500A (zh) * 2020-01-29 2021-07-30 丰田自动车株式会社 代理装置、代理系统以及非暂时性记录介质
CN112634889A (zh) * 2020-12-15 2021-04-09 平安国际智慧城市科技股份有限公司 基于人工智能的电子病例录入方法、装置、终端及介质
CN112634889B (zh) * 2020-12-15 2023-08-08 深圳平安智慧医健科技有限公司 基于人工智能的电子病例录入方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
US10522144B2 (en) Method of and system for providing adaptive respondent training in a speech recognition application
US8812314B2 (en) Method of and system for improving accuracy in a speech recognition system
Hjalmarsson The additive effect of turn-taking cues in human and synthetic voice
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US20110010177A1 (en) Question and answer database expansion apparatus and question and answer database expansion method
Fager et al. Evaluation of a speech recognition prototype for speakers with moderate and severe dysarthria: A preliminary report
JPWO2018163647A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2010054549A (ja) 回答音声認識システム
CN108431883A (zh) 语言学习系统以及语言学习程序
KR102444012B1 (ko) 말 장애 평가 장치, 방법 및 프로그램
JP2008262120A (ja) 発話評価装置及び発話評価プログラム
KR101004913B1 (ko) 음성인식을 활용한 컴퓨터 주도형 상호대화의 말하기 능력평가 장치 및 그 평가방법
JP2006189730A (ja) 音声対話方法および音声対話装置
KR100898104B1 (ko) 상호 대화식 학습 시스템 및 방법
KR102336015B1 (ko) 동영상 기반의 언어장애 분석 시스템, 방법 및 이를 수행하기 위한 프로그램을 기록한 기록매체
JP2006301967A (ja) 会話支援装置
KR101004940B1 (ko) 음성인식을 활용한 컴퓨터 주도형 말하기 능력 평가방법
Dahl et al. Improving automatic speech recognition of aphasic speech through the use of a processing prosthesis
JP7515934B2 (ja) 会話ベースの精神障害選別方法及びその装置
JP7145427B2 (ja) 認知機能検査システム、及びプログラム
JP2005241767A (ja) 音声認識装置
JP7241322B2 (ja) 認知機能検査システム、及びプログラム
JP6856277B1 (ja) 音声入力で翻訳言語を設定する自動音声翻訳システム、自動音声翻訳方法及びそのプログラム
US20240127804A1 (en) Transcript tagging and real-time whisper in interactive communications