JP7008992B2

JP7008992B2 - 音声解析方法

Info

Publication number: JP7008992B2
Application number: JP2020156743A
Authority: JP
Inventors: 潔関根
Original assignee: Interactive Solutions Inc
Current assignee: Interactive Solutions Inc
Priority date: 2020-04-24
Filing date: 2020-09-17
Publication date: 2022-01-25
Anticipated expiration: 2040-04-24
Also published as: WO2021215045A1; CA3146508A1; CN114175148B; US20220399011A1; JP2021173872A; US11756536B2; JP2021173988A; JP6771251B1; CN116434755A; CN114175148A; CA3146508C

Description

この発明は，音声解析システムに関する。

特開２００２－２５９６３５号公報には，議論参加者が議論する過程でなされた発言の中からキーワードを図形オブジェクトとテキストとの組み合わせにより表示するシステムが記載されている。

特開２０１７－２２４０５２号公報には，音声解析端末を用いたプレゼンテーション評価装置が記載されている。

しかし，１台の音声解析端末を用いて，会話を音声認識すると，音声解析端末に近いユーザの会話を比較的正確に音声解析できるものの,音声解析端末から遠いユーザの会話を正確に音声解析できないという問題がある。

一方，特許第６６４６１８４号公報には，検索用資料情報記憶装置が記載されている。

特開２００２－２５９６３５号公報特開２０１７－２２４０５２号公報特許第６６４６１８４号公報

この明細書に記載されるある態様の発明は，音声認識をより精度高く行うことができる音声解析システムを提供することを目的とする。

ある態様の発明は，基本的には，複数台の音声解析装置で解析した会話情報を相互に利用しあって，音声認識を行うことで，より精度高く音声認識を行うことができるという知見に基づく。

この明細書に記載されるある態様の発明は，音声解析システム１に関する。
この音声解析システム１は，第１の音声解析端末３と，第２の音声解析端末５とを含むシステムである。この端末は，コンピュータを含んでおり，以下説明する各要素はコンピュータにより実装される要素である。このシステムは，さらにサーバを含んでもよい。
第１の音声解析端末３は，第１の用語解析部７と，第１の会話記憶部９と，第１の解析部１１と，プレゼンテーション記憶部１３と，関連語記憶部１５と，表示部１７と，トピックス語記憶部１９を含む端末である。
第１の用語解析部７は，会話に含まれる単語を解析し，第１の会話情報を得るための要素である。
第１の会話記憶部９は，第１の用語解析部７が解析した第１の会話情報を記憶するための要素である。
第１の解析部１１は，第１の会話記憶部９が記憶した第１の会話情報を解析するための要素である。
プレゼンテーション記憶部１３は，複数のプレゼンテーション資料を記憶するための要素である。
関連語記憶部１５は，プレゼンテーション記憶部１３に記憶されたそれぞれのプレゼンテーション資料に関連した関連語を記憶するための要素である。
表示部１７は，プレゼンテーション記憶部１３が記憶したいずれかのプレゼンテーション資料を表示することができる要素である。
トピックス語記憶部１９は，会話中用語と関連するトピックス語を記憶するための要素である。

第２の音声解析端末５は，第２の用語解析部２１と，第２の会話記憶部２３と，を含む端末である。
第２の用語解析部２１は，会話に含まれる単語を解析し，第２の会話情報を得るための要素である。第２の会話記憶部２３は，第２の用語解析部２１が解析した第２の会話情報を記憶するための要素である。

第１の音声解析端末３は，会話情報受信部２５をさらに有する。
そして，会話情報受信部２５は，第２の音声解析端末５から第２の会話情報を受信するための要素である。そして，第１の会話記憶部は、会話情報受信部２５が受信した第２の会話情報も記憶する。

第１の解析部１１は，特定プレゼンテーション情報取得部３１と，第１の会話区分取得部３３と，特定関連語読出部３５と，第１の会話中用語抽出部３７と，第１のトピックス語抽出部３９と，第２の会話中用語抽出部４１と，第２のトピックス語抽出部４３と，会話区分採用部４５と，を有する，
特定プレゼンテーション情報取得部３１は，複数のプレゼンテーション資料のうちのあるプレゼンテーション資料である特定プレゼンテーション資料が選択されたことに関する情報を受け取るための要素である。
第１の会話区分取得部３３は，第１の会話情報における会話区分を分析し，１又は複数の会話区分を得るための要素である。
特定関連語読出部３５は，関連語記憶部１５から，特定プレゼンテーション資料に関連する関連語である特定関連語を読み出すための要素である。
第１の会話中用語抽出部３７は，第１の会話情報におけるある会話区分である第1の会話区分に含まれる第１の解析部１１が解析した会話中用語である第１の会話中用語を抽出するための要素である。
第１のトピックス語抽出部３９は，トピックス語記憶部１９から，第１の会話中用語と関連するトピックス語である第１のトピックス語を抽出するための要素である。
第２の会話中用語抽出部４１は，第２の会話情報における第1の会話区分に対応する会話区分である第２の会話区分に含まれる会話中用語である第２の会話中用語を抽出するための要素である。
第２のトピックス語抽出部４３は，トピックス語記憶部１９から，第２の会話中用語と関連するトピックス語である第２のトピックス語を抽出するための要素である。
会話区分採用部４５は，第１のトピックス語と特定関連語の関係及び第２のトピックス語と特定関連語との関係を用いて，第１の会話区分又は第２の会話区分を正しい会話区分として採用するための要素である。

会話区分採用部４５は，以下のものであってもよい。すなわち，会話区分採用部４５は，第１のトピックス語と第２のトピックス語が異なる場合であって，
第１のトピックス語が特定関連語であり，第２のトピックス語が特定関連語でないときは，第１の会話情報における第1の会話区分を正しい会話区分として採用し，
第１のトピックス語が特定関連語でなく，第２のトピックス語が特定関連語であるときは，第２の会話情報における第２の会話区分を正しい会話区分として採用する。

会話区分採用部４５は，以下のものであってもよい。すなわち，会話区分採用部４５は，第１のトピックス語が特定関連語である数と，第２のトピックス語が特定関連語である数とを比較し，前者が多い場合は第1の会話区分を正しい会話区分として採用し，後者が多い場合は第２の会話区分を正しい会話区分として採用する。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，時刻時間を記憶するための時刻記憶部５１をさらに有するものである。
このシステムは，第１の会話情報は，会話に含まれる単語とともに，各単語と関連した時刻を含む。会話区分取得部３３は，各単語の時刻情報を用いて，会話区分を分析する。
会話が途切れると，話者が変わったことが分かるので，単語間の時間が空けば会話区分が変わったことが分かる。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，会話に含まれる音声の周波数を解析する周波数解析部５３をさらに有するものである。
このシステムは，第１の会話情報が，会話に含まれる単語とともに，各単語と関連した音声の周波数を含む。
会話区分取得部３３は，各単語の周波数を用いて，会話区分を分析する。
声の高さが変われば，話者が変わったことが分かるので，各単語の音の周波数を分析すれば会話区分が変わったことが分かる。

音声解析システム１の好ましい態様は，関連語記憶部１５が記憶する関連語は，プレゼンター用関連語と，リスナー用関連語とを含む。会話区分取得部３３は，会話情報に含まれるプレゼンター用関連語と，リスナー用関連語とを用いて，会話区分を分析する。
プレゼンテーションする方が用いるプレゼン関連用語と，リスナーの方が発言する用語とは異なるので，それぞれの用語を解析して，会話区分を分けることができる。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，複数のプレゼンテーション資料のそれぞれに関連した誤変換用語を記憶した誤変換用語記憶部５５をさらに有するものである。
そして，第１の解析部１１は，特定プレゼンテーション資料に関する誤変換用語が含まれる場合，各会話区分のうち正しい会話区分として採用されなかった会話区分に含まれる用語のうち，正しい会話区分に含まれる誤変換用語に対応する用語を用いて，正しい会話区分に含まれる用語を修正する。第１の音声解析端末３及び第２の音声解析端末５は、互いに情報を照らし合わせることで、高精度の解析結果を得ることができる。

この明細書に記載されるある態様の発明によれば，複数台の音声解析装置で解析した会話情報を相互に利用しあって，音声認識を行うことで，より精度高く音声認識を行うことができる。

図１は，音声解析システムの構成例を示すブロック図である。図２は，音声解析システムの処理例を示すフローチャートである。図３は，音声解析システムの処理例を示す概念図である。図４は，音声解析システムの第２の処理例を示す概念図である。図５は，音声解析システムの第３の処理例を示す概念図である。

以下，図面を用いて本発明を実施するための形態について説明する。本発明は，以下に説明する形態に限定されるものではなく，以下の形態から当業者が自明な範囲で適宜修正したものも含む。

この明細書に記載されるある態様の発明は，音声解析システム１に関する。音声解析システムは，会話などの音声情報を入力情報として受け取り，受け取った音声情報を解析して，会話文を得るためのシステムである。音声解析システムは，コンピュータにより実装される。なお，音声情報を文字情報に置換するシステムは公知であり，本発明はそのような公知のシステムの構成を適宜利用することができる。このシステムは，携帯端末（携帯電話などのコンピュータ端末）により実装されてもよいし，コンピュータやサーバにより実装されてもよい。コンピュータは，プロセッサを有しており，プロセッサが各種機能を達成してもよい。

図１は，音声解析システムの構成例を示すブロック図である。この音声解析システム１は，第１の音声解析端末３と，第２の音声解析端末５とを含むシステムである。この端末は，コンピュータを含んでおり，以下説明する各要素はコンピュータにより実装される要素である。

コンピュータは，入出力部，制御部，演算部及び記憶部を有し，各要素がバスなどにより情報の授受を行うことができるように接続されている。そして，例えば，制御部は，記憶部に記憶された制御プログラムを読み出して，記憶部に記憶された情報や入出力部から入力された情報を用いて，演算部に各種演算を行わせる。演算部が演算して求めた情報は，記憶部に記憶される他，入出力部から出力される。このようにして，各種演算処理がなされる。以下説明する各要素は，コンピュータのいずれかの要素に対応していてもよい。

第１の音声解析端末３は，第１の用語解析部７と，第１の会話記憶部９と，第１の解析部１１と，プレゼンテーション記憶部１３と，関連語記憶部１５と，表示部１７と，トピックス語記憶部１９と，会話情報受信部２５を含む端末である。

第１の用語解析部７は，会話に含まれる単語を解析し，第１の会話情報を得るための要素である。例えば，マイクを介して，第１の音声解析端末３に音声が入力される。すると，第１の音声解析端末３は，会話（音声）を記憶部に記憶する。第１の用語解析部７は，会話に含まれる単語を解析し，第１の会話情報を得る。第１の会話情報は，音声を音情報に直したものである。音情報の例は「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」といったものである。例えば，デジタル化された音声データをコンピュータの記憶部から読み出し，記憶部からプログラムを読み出して，プログラムの指令に基づき，演算部に読み出した音声データを解析させればよい。

第１の会話記憶部９は，第１の用語解析部７が解析した第１の会話情報を記憶するための要素である。例えば，コンピュータの記憶部が第１の会話記憶部９として機能する。第１の会話記憶部９は，上記の会話情報を，記憶部に記憶する。

第１の解析部１１は，第１の会話記憶部９が記憶した第１の会話情報を解析するための要素である。第１の解析部１１は，記憶部に記憶される音情報を読み出し，記憶部に記憶されている用語を検索して，適切な用語に変換する。この際に，変換可能用語（同音異義語）がある場合は，他の用語とともに用いられる頻度の高い用語を選択するようにして，変換効率を上げてもよい。たとえば「とうにょうびょう」は，「糖尿病」に変換される。そして，「しんやく」の変換候補は，「新薬」や「新約」，「新訳」，「新役」がある。そのうち，「糖尿病」とともに出現する頻度の高い「新薬」が，会話情報に含まれる用語として選択される。すると，記憶部に記憶された音情報は，「これから糖尿病に関する新薬であるＸＹＺについて説明しますそれは決闘血を下げますか」といった会話文に解析される。そして，解析された会話文は，記憶部に記憶される。

第１の解析部１１は，プレゼンテーション資料と関連して読み出した関連語を用いて，会話情報の解析精度を上げてもよい。例えば，「しんやく」という会話情報の部分がある場合であって，関連語に「新薬」がある場合は，この「しんやく」を解析して，「新薬」を選択するようにすればよい。このようにすれば，解析精度を高めることができる。また，関連語に関して複数の読みを割り振っておき，会話情報にそれらが含まれる場合は，対応する関連語を選択するようにしてもよい。例えば，関連語「ＸＹＺ」に対して，読みの候補が「えっくすわいじー」「えっくすわいぜっと」「えくすわいじー」及び「えくすわいぜっと」である。

プレゼンテーション記憶部１３は，複数のプレゼンテーション資料を記憶するための要素である。例えば，コンピュータの記憶部が，プレゼンテーション記憶部として機能する。プレゼンテーション資料の例は，パワーポイント（登録商標）の各頁である。プレゼンテーション資料は，コンピュータに格納され，表示部に表示されて会話相手や聴衆にプレゼンテーションを行うことができるようにされる資料である。

関連語記憶部１５は，プレゼンテーション記憶部１３に記憶されたそれぞれのプレゼンテーション資料に関連した関連語を記憶するための要素である。関連語はプレゼンテーション資料である一つのファイル全体と関連する用語であってもよいし，一つのファイルに含まれるある頁と関連する用語であってもよい。例えば，コンピュータの記憶部が，関連語記憶手段として機能する。プレゼンテーション資料に関連した複数の関連語の例は，パワーポイントの各頁に基づいて説明を行う際に，用いることがありうる用語である。記憶部は，パワーポイントなどのプレゼンテーション資料と関連して，複数の関連語を格納する。記憶部は，プレゼンテーション資料の情報（例えば，ファイルＩＤやページ番号）と関連して，そのプレゼンテーション資料に関連した複数の関連語を記憶する。関連語の例は，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」である。この関連語は，例えばユーザがコンピュータに入力することにより記憶部が記憶してもよい。また，この関連語は，コンピュータが，「ＸＹＺ」といった関連語に関するウェブサイトを自動的に検索し，検索したウェブサイトに含まれる用語を自動的に記憶部に記憶してあるプレゼンテーション資料に関する関連語を適宜更新するようにしてもよい。

表示部１７は，プレゼンテーション記憶部１３が記憶したいずれかのプレゼンテーション資料を表示することができる要素である。表示部１７の例は，コンピュータの出力部であり，具体的には，モニタやディスプレイである。コンピュータは，記憶部に記憶したプレゼンテーション資料に関する情報を読み出して，モニタやスクリーンにプレゼンテーション資料を表示する。そのようにして，会話相手や聴衆にプレゼンテーション資料を表示できる。

トピックス語記憶部１９は，会話中用語と関連するトピックス語を記憶するための要素である。会話中用語は，例えば，会話において用いられる用語のうちキーワードとなる用語である。トピックス語記憶部１９は，会話中用語（キーワード）と関連するトピックス語を記憶するための手段である。トピックス語記憶部１９は，記憶部と，記憶部から情報を読み出すための要素（例えば制御プログラム）により実現されればよい。
例えば，トピックス語記憶部１９には，肥満遺伝子，肥満症，肥満症実験動物という会話において用いられることが想定されるキーワードと関連して，肥満というトピックス語が記憶されていればよい。トピックス語は，複数のキーワードをさらに統一した用語や上位概念化した用語であってもよい。トピックス語を用いることで，検索をより迅速に行うことができることとなる。トピックス語の例は，疾患名，薬剤名，有効成分名及び製薬企業名である。つまり，トピックス語は，会話中用語に関する第２の変換語といえる。トピックス語は，複数種類のキーワードについて，検索に用いることがふさわしい用語を割り振った用語であってもよい。また，トピックス語は，メッセージに関するものであってもよい。

第２の音声解析端末５は，第２の用語解析部２１と，第２の会話記憶部２３と，を含む端末である。例えば，第１の音声解析端末３は，ＭＲといった説明者が所持したノート型パソコンであるなど，説明を行う者の付近に存在し，説明者の音声を的確に収録するためのものである。一方，第２の音声解析端末５は，例えば，ＭＲよりも医師に近い場所といったように，説明者よりは聴衆近くに設置され，説明を聞く方の者の音声をより的確に収録するためのものである。第２の音声解析端末５の例は，マイクや，携帯端末（携帯電話やスマートフォンといった）である。第２の音声解析端末５は，第１の音声解析端末３と情報の授受を行うことができるようにされている。情報の授受は，例えば，第１の音声解析端末３と第２の音声解析端末５とが直接行えるようにしてもよいし，サーバを介して情報の授受を行うことができるようにしてもよい。

第２の用語解析部２１は，会話に含まれる単語を解析し，第２の会話情報を得るための要素である。第２の会話情報の例は，「これからとうにゅうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」といったものである。第２の音声解析端末５は，マイクなどから入力された会話を記憶部に記憶する。そして，第２の用語解析部２１は，記憶部から会話を読み出して，記憶部に格納された用語を参照して，会話情報を得る。第２の会話情報の例は,「これから豆乳秒二巻する新約であるＸＹＺについて説明しますそれは血糖値を下げますか？」といったものである。

第２の会話記憶部２３は，第２の用語解析部２１が解析した第２の会話情報を記憶するための要素である。記憶部が，第２の会話記憶部２３として機能する。つまり，第２の会話情報は，第２の音声解析端末５の記憶部に記憶される。第２の音声解析端末５の記憶部に記憶された第２の会話情報は，例えば，第２の音声解析端末５のアンテナといった出力部を介して，第１の音声解析端末３へ送信される。

すると，第１の音声解析端末３は，第２の音声解析端末５から送信された第２の会話情報を受け取る。第１の音声解析端末３の会話情報受信部２５は，第２の音声解析端末５から第２の会話情報を受信するための要素である。例えば，第１の音声解析端末３のアンテナが会話情報受信部２５として機能する。第２の音会話情報は，会話情報受信部２５を介して，第１の音声解析端末３に入力され，記憶部に記憶される。その際，例えば，第１の会話記憶部は、会話情報受信部２５が受信した第２の会話情報も記憶すればよい。

第１の解析部１１は，特定プレゼンテーション情報取得部３１と，第１の会話区分取得部３３と，特定関連語抽出部３５と，会話区分選択部３７と，第１のトピックス語抽出部３９と，第２の会話中用語抽出部４１と，第２のトピックス語抽出部４３と，会話区分採用部４５と，を含む。

特定プレゼンテーション情報取得部３１は，複数のプレゼンテーション資料のうちのあるプレゼンテーション資料である特定プレゼンテーション資料が選択されたことに関する情報を受け取るための要素である。例えば，ＭＲがある糖尿病の新薬であるＸＹＺに関するパワーポイント（登録商標）資料を選択する。すると，そのページが選択された情報は，コンピュータの入力装置を介して，コンピュータ内に入力される。その入力された情報を特定プレゼンテーション資料が選択されたことに関する情報とすればよい。

第１の会話区分取得部３３は，第１の会話情報における会話区分を分析し，１又は複数の会話区分を得るための要素である。第１の会話区分取得部３３は，第２の会話情報における会話区分をも分析し，１又は複数の会話区分を得てもよい。会話区分は，通常，読点（。）で区切れる会話部分である。会話区分は，一文であってもよい。また話者が変化する際に会話区分を変更してもよい。もっとも，会話によっては，必ずしも書き言葉と同じにならないことがある。
例えば，「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」を「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいします」と「それはけっとうちをさげますか」といった２つの会話区分を得る。又は，「これから糖尿病に関する新薬であるＸＹＺについて説明しますそれは決闘血を下げますか。」を「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは決闘血を下げますか。」といった２つの会話区分を得る。このような会話区分の取得方法は，公知である。

特定関連語読出部３５は，関連語記憶部１５から，特定プレゼンテーション資料に関連する関連語である特定関連語を読み出すための要素である。コンピュータの記憶部が関連語記憶部１５として機能する。そして，特定関連語読出部３５は，関連語記憶部１５としての記憶部から，特定プレゼンテーション資料に関する情報を用いて，特定プレゼンテーション資料と関連して記憶されている関連語を特定関連語として読み出す。特定関連語は１つでもよいし，複数でもよい。読み出した特定関連語は，適宜記憶部に記憶されてもよい。例えばコンピュータの演算部及び記憶部が，特定関連語読出部３５として機能する。
例えば，関連語記憶部１５には，ある糖尿病の新薬であるＸＹＺに関するパワーポイント（登録商標）資料と関連して，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」が記憶されている。このため特定関連語読出部３５は，特定プレゼンテーション資料であるＸＹＺに関するパワーポイント（登録商標）資料と関連して，これらの用語を特定関連語として読み出し，記憶部に記憶する。

第１の会話中用語抽出部３７は，第１の会話情報におけるある会話区分である第1の会話区分に含まれる第１の解析部１１が解析した会話中用語である第１の会話中用語を抽出するための要素である。会話中用語は，会話に含まれる用語である。そして，第１の会話情報の第１の会話区分に含まれ，第１の解析部１１が解析した会話中用語が第１の会話中用語である。第１の解析部１１が解析した会話中用語は，例えば，記憶部に記憶されている。第１の会話中用語抽出部３７は，は，記憶部に記憶された会話中用語から第１の会話区分に含まれるものを読み出し，記憶部に記憶すればよい。このようにして，第１の会話中用語を抽出できる。例えばコンピュータの演算部及び記憶部が，第１の会話中用語抽出部３７として機能する。
例えば，「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは決闘血を下げますか。」のうち，「これから糖尿病に関する新薬であるＸＹＺについて説明します。」を第１の会話区分とする。そして，「それは決闘血を下げますか。」を第１の会話区分に続く会話区分とする。第１の会話区分には，「糖尿病」，「新薬」及び「ＸＹＺ」という第１の会話中用語が含まれている。

第１のトピックス語抽出部３９は，トピックス語記憶部１９から，第１の会話中用語と関連するトピックス語である第１のトピックス語を抽出するための要素である。トピックス語記憶部１９には，会話中用語と関連したトピックス語が記憶されている。このため，記憶部から第１の会話中用語を読み出し，読み出した第１の会話中用語を用いてトピックス語記憶部１９から第１の会話中用語と関連するトピックス語である第１のトピックス語を抽出すればよい。例えばコンピュータの演算部及び記憶部が，第１のトピックス語抽出部３９として機能する。
先に説明した通り，第１の会話中用語の例は，「糖尿病」，「新薬」及び「ＸＹＺ」である。これらに共通するトピックス語は，「ＸＹＺ」である。それぞれの会話中用語から複数のトピックス語が抽出されてもよい。

第２の会話中用語抽出部４１は，第２の会話情報における第1の会話区分に対応する会話区分である第２の会話区分に含まれる会話中用語である第２の会話中用語を抽出するための要素である。例えば，第１の解析部１１は，第２の会話情報に含まれる会話中用語を解析する。なお，第２の音声解析端末が第２の解析部を有し，第２の会話情報に含まれる会話中用語を解析してもよい。この場合，第２の音声解析端末は，解析した第２の会話情報に含まれる会話中用語を第１の音声解析端末へ送信してもよい。また，解析した第２の会話情報に含まれる会話中用語をサーバへ送信してもよい。
第２の会話区分の例は,「これから豆乳秒二巻する新約であるＸＹＺについて説明します」である。第２の会話中用語の例は，「豆乳」，「秒」，「二巻」，「新約」，「ＸＹＺ」である。

第２のトピックス語抽出部４３は，トピックス語記憶部１９から，第２の会話中用語と関連するトピックス語である第２のトピックス語を抽出するための要素である。第２のトピックス語抽出部４３は，第１のトピックス語抽出部３９と同様である。
第２の会話中用語の例は，「豆乳」，「秒」，「二巻」，「新約」，「ＸＹＺ」である。これらに関するトピックス語のうち共通するものが多いトピックス語の例は「聖書」である。

会話区分採用部４５は，第１のトピックス語と特定関連語の関係及び第２のトピックス語と特定関連語との関係を用いて，第１の会話区分又は第２の会話区分を正しい会話区分として採用するための要素である。記憶部から第１のトピックス語，第２のトピックス語及び特定関連語を読み出し，演算部を用いてこれらの関係を解析し，解析結果に基づいて，第１の会話区分又は第２の会話区分を正しい会話区分として採用すればよい。例えばコンピュータの演算部及び記憶部が，会話区分採用部４５として機能する。このように会話中用語と特定関連語との関係を用いるのではなく，会話中用語関連するトピックス語と特定関連語との関係を用いて正しい会話区分を採用するので，客観的かつ精度よく正しい会話区分を採用できることとなる。特に会話中用語を用いた場合に誤変換がなされることがあるものの，トピックス語を用いると特定関連語との関連がより強いものとなるので，精度よく正しい会話区分を採用できることとなる。
例えば，第１のトピックス語は「ＸＹＺ」，第２のトピックス語は「聖書」であり，特定関連語は，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」である。この場合，第１のトピックス語「ＸＹＺ」が特定関連語の一つと一致しているので，第１の会話区分が正しい会話区分として採用される。

なお，第１のトピックス語及び第２のトピックス語がともに特定関連語の一つである場合は，特定関連語に係数（ランク）をつけて記憶部に記憶しておき，ランクの高い特定関連語と一致したトピックス語を有する会話区分を正しい会話区分として採用してもよい。

会話区分採用部４５は，以下のものであってもよい。すなわち，会話区分採用部４５は，第１のトピックス語と第２のトピックス語が異なる場合であって，第１のトピックス語が特定関連語であり，第２のトピックス語が特定関連語でないときは，第１の会話情報における第1の会話区分を正しい会話区分として採用し，第１のトピックス語が特定関連語でなく，第２のトピックス語が特定関連語であるときは，第２の会話情報における第２の会話区分を正しい会話区分として採用する。例えば，記憶部から第１のトピックス語，第２のトピックス語及び特定関連語を読み出す。そして，演算部に第１のトピックス語と特定関連語が一致するか否かの処理を行わせる。また，演算部に第２のトピックス語と特定関連語が一致するか否かの処理を行わせる。この際，演算部に第１のトピックス語と第２のトピックス語とが同じであるか否かの演算処理を行わせてもよい。そして，演算部が第１のトピックス語が特定関連語であり，第２のトピックス語が特定関連語でないと判断した時は，第１の会話情報における第1の会話区分を正しい会話区分として採用し，その結果を記憶部に記憶する。一方，第１のトピックス語が特定関連語でなく，第２のトピックス語が特定関連語であるときは，第２の会話情報における第２の会話区分を正しい会話区分として採用し，記憶部に記憶する。このようにして，第１の会話区分又は第２の会話区分を正しい会話区分として採用できる。

会話区分採用部４５は，以下のものであってもよい。すなわち，会話区分採用部４５は，第１のトピックス語が特定関連語である数と，第２のトピックス語が特定関連語である数とを比較し，前者が多い場合は第1の会話区分を正しい会話区分として採用し，後者が多い場合は第２の会話区分を正しい会話区分として採用する。
例えば，第１の会話中用語及び第２の会話中用語のそれぞれと関連するトピックス語をすべて読み出し，読み出した複数のトピックス語が，特定関連語と一致する数を計測し，その数が多い方の会話区分を正しい会話区分として採用すればよい。なお，特定関連語には，それぞれ係数を付して，よりプレゼンテーション資料に関連する特定関連語とトピックス語とが一致した場合により高い得点となるようにし，得点が高い会話区分を正しい会話区分として採用してもよい。

以下，会話区分の取得方法の例（実施態様）を説明する。音声解析システム１の好ましい態様は，第１の音声解析端末３が，時刻や時間を記憶するための時刻記憶部４１をさらに有するものである。このシステムは，第１の会話情報は，会話に含まれる単語とともに，各単語と関連した時刻を含む。会話区分取得部３３は，各単語の時刻情報を用いて，会話区分を分析する。例えば，音声が一定時間連続した後に，一定時間以上無音状態が続くと，会話区分が変わったといえる。単語間の時間が空けば会話区分が変わったことが分かる。この場合，例えば，コンピュータの記憶部は，第１の会話記憶部に第1の会話情報を記憶させ，時刻記憶部４１に第１の会話情報の各情報についての時刻を対応付けて記憶させる。すると，例えば，第１の解析部１１が第１の会話情報を解析する際に，各会話情報の時刻を読み出して，その時間間隔を求めることができる。そして，記憶部に記憶した閾値を読み出し，読み出した閾値と，求めた時間間隔とを比較して，時間間隔が閾値より大きい場合は，会話区分であると判断してもよい。また，第２の音声解析端末５も，時刻や時間を記憶するための第２時刻記憶部を有することが好ましい。すると，会話の時間を照合することで，第１の会話情報の各区分と，第２の会話情報の各区分の対応関係を把握することができることとなる。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，会話に含まれる音声の周波数を解析する周波数解析部４３をさらに有するものである。このシステムは，第１の会話情報が，会話に含まれる単語とともに，各単語と関連した音声の周波数を含む。会話区分取得部３３は，各単語の周波数を用いて，会話区分を分析する。声の高さが変われば，話者が変わったことが分かるので，各単語の音の周波数を分析すれば会話区分が変わったことが分かる。この場合も，会話情報に含まれる各情報と関連させて，音声の周波数情報を記憶部に記憶させ，第１の解析部１１が記憶部に記憶された周波数情報を読み出して，周波数の変化を求め，これにより会話区分を求めればよい。また，会話区分となる用語を記憶部が記憶して起き，会話情報にその会話区分となる用語が含まれる場合に，会話区分であると判断してもよい。そのような会話区分となる用語の例は，「です。」「ではないでしょうか。」「ですか。」「なるのです。」「でしょうか。」「ございます。」「いただきます。」「なります。」「え～」である。

関連語抽出部３５は，第１の会話情報及び第２の会話情報に含まれる特定プレゼンテーション資料に関する関連語を抽出するための要素である。
例えば，あるプレゼンターション資料の資料名（存在位置）とそのページ数に関連して，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」が記憶部に記憶されているので，関連語抽出部３５は，記憶部からこれらの特定プレゼンテーション資料に関する関連語を読み出す。そして，第１の会話情報に含まれる用語と，関連語とが一致するか演算処理を行う。そして，一致した関連語を，会話情報及び区分番号とともに記憶部に記憶する。

例えば，第１の会話情報は，２つの会話区分からなり，最初の会話区分である「これから糖尿病に関する新薬であるＸＹＺについて説明します。」には，「糖尿病」「新薬」及び「ＸＹＺ」という３つの関連語が存在する。一方，第１の会話情報の２つめの会話区分には，関連語が存在しない。第１の音声解析端末３は，例えば，第１の会話情報の１番目の会話区分に関して，「糖尿病」「新薬」及び「ＸＹＺ」という関連語，及び３という数値を記憶する。なお，この会話区分に関して３という数値のみを記憶してもよいし，関連語のみを記憶してもよい。２つめの会話区分や次の第２の会話情報についても同様である。
第２の会話情報の最初の会話区分である「これから豆乳秒二巻する新約であるＸＹＺについて説明します。」には，「ＸＹＺ」という一つの関連語が含まれている。一方，第２の会話情報の２つめの会話区分である「それは血糖値を下げますか？」には，「血糖値」という関連語が１つ含まれている。

この態様のシステムは，第２の音声解析端末も，第１の音声解析端末と同様に正しい会話区分を得ることができるものである。したがって，各要素の処理は，上記した態様と同様である。

この明細書に記載されるある態様は，サーバ－クライアントシステムに関する。この場合，例えば第１の携帯端末は，表示部１７を有し，第１の用語解析部７，第１の会話記憶部９，第１の解析部１１，プレゼンテーション記憶部１３，関連語記憶部１５，トピックス語記憶部１９，及び会話情報受信部２５のうちいずれか１つ又は2つ以上の要素をサーバが担うようにしてもよい。

この明細書に記載されるある態様は，プログラムに関する。このプログラムは，コンピュータやコンピュータのプロセッサを，第１の用語解析部７と，第１の会話記憶部９と，第１の解析部１１と，プレゼンテーション記憶部１３と，関連語記憶部１５と，表示部１７と，トピックス語記憶部１９と，会話情報受信部２５として機能させるためのプログラムである。このプログラムは，上記した各態様のシステムを実装するためのプログラムとなりうる。このプログラムは，携帯端末にインストールされるアプリケーションの態様を採っていてもよい。

この明細書に記載されるある態様は，上記したプログラムを格納したコンピュータ読み取り可能な情報記録媒体に関する。情報記録媒体の例は，ＣＤ－ＲＯＭ，ＤＶＤ，フロッピーディスク，メモリーカード及びメモリースティックである。

図２は，音声解析システムの処理例を示すフローチャートである。図３は，音声解析システムの処理例を示す概念図である。２つの携帯端末には，上記したプログラムがインストールされている。一方の端末は，例えば，ＭＲのノート型パソコンであり，残りの携帯端末はスマートフォンであり，相手方の音声を拾いやすいように相手方である医師の付近に置かれている。上記したプログラムを実装するアプリケーションが，ノート型パソコンやスマートフォンにインストールされている。

プレゼンテーション資料の選択工程（Ｓ１０１）
ＭＲが，ノート型パソコンに格納されているか，又はサーバから読み出したあるパワーポイント（登録商標）を開く。すると，パソコンに，そのパワーポイント（登録商標）が選択されたことに関する情報が入力される。

プレゼンテーション資料の表示工程（Ｓ１０２）
ノートパソコンの表示部には，そのパワーポイント（登録商標）で作成されたプレゼンテーション資料のページが表示される。一方，スマートフォンの表示部にもパワーポイント（登録商標）のページが表示される。

プレゼンテーション資料の関連語読み出し工程（Ｓ１０３）
一方，パワーポイント（登録商標）で作成されたプレゼンテーション資料と関連した特定関連語が記憶部から読み出される。読み出された特定関連語の例は，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」である。読み出された特定関連語は適宜記憶部に一時的に記憶される。

プレゼンテーション資料に基づく会話（Ｓ１０４）
表示された資料に関連してＭＲと医師との間で会話がなされる。会話は，プレゼンテーションであってもよいし，説明であってもよい。会話の例は，「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは血糖値を下ますか？」である（図３）。

第１の会話情報取得工程（Ｓ１０５）
ノート型パソコンは，会話を収録し，コンピュータ内に入力する。そして，会話に含まれる単語を解析し，第１の会話情報を得る。解析前の第１の会話情報の例は，「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」といったものである。ノート型パソコンはＭＲ側に設置されており，ＭＲの音声をよく拾う。会話情報は，記憶部に記憶される。

第１の会話解析工程（Ｓ１０６）
例えば解析後の第１の会話情報は，「これから糖尿病に関する新薬であるＸＹＺについて説明しますそれは決闘血を下げますか」といった会話文である。そして，解析された会話文は，記憶部に記憶される。なお，この第１の会話情報は，会話区分が分析されてもよい。その場合，会話区分の例は, 「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは決闘血を下げますか。」といったものである。会話区分は，のちの工程で分析されてもよい。

第２の会話情報取得工程（Ｓ１０７）
スマートフォンにも会話が入力され，記憶される。そして，スマートフォンも起動したアプリケーションにより，会話が解析される。第２の会話情報の例は「これからとうにゅうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」である。ノート型パソコンと，スマートフォンでは，設置された位置や収音の方向などに相違がある。このため，同じ会話を解析しても，ノート型パソコン(第１の音声解析端末)とスマートフォン（第２の音声解析端末）とでは，解析される会話に相違がみられる。この工程は，通常，第１の会話情報取得工程（Ｓ１０５）と同時に行われる。

第２の会話解析工程（Ｓ１０８）
スマートフォン側でも，第２の会話情報が解析される。第２の会話情報の例は,「これから豆乳秒二巻する新約であるＸＹＺについて説明しますそれは血糖値を下げますか？」といったものである。この際に，会話区分が解析されてもよい。会話区分が解析された第２の会話は，「これから豆乳秒二巻する新約であるＸＹＺについて説明します。「それは血糖値を下げますか？」のようになる。第２の会話情報も適宜記憶部に記憶される。なお，第２の会話情報の解析は，ノート型パソコン(第１の音声解析端末)で行ってもよいし，サーバで行ってもよい。

第２の会話情報送信工程（Ｓ１０９）
第２の会話情報は，例えば，スマートフォンからノート型パソコンへ送信される。すると，ノート型パソコン（第１の音声解析端末３）は，スマートフォン（第２の音声解析端末５）から送信された第２の会話情報を受け取る。

会話区分取得工程（Ｓ１１０）
第１の会話情報及び第２の会話情報における会話区分を分析し，１又は複数の会話区分を得てもよい。各端末において会話区分が解析されていてもよい。一方，ノート型パソコン（第１の音声解析端末）で，２つの端末が収録した会話情報について，まとめて会話区分を分析した方が，第１の会話情報と第２の会話情報とで，対応した会話区分を得ることができるので，好ましい。この場合，第１の会話情報の各会話区分と，第２の会話情報の各会話区分とは，会話時間がほぼ同じであるはずである。そのため，計時手段を用いて，各区分を合わせることが好ましい。このようにして，第１の会話情報を区分分けするとともに，対応する第２の会話区分の各会話区分も得ることができる。
会話区分取得部３３は，第２の会話情報における会話区分をも分析し，１又は複数の会話区分を得てもよい。

第１の会話情報は，
「これから糖尿病に関する新薬であるＸＹＺについて説明します。」
「それは決闘血を下げますか。」
という会話文に解析される。
第２の会話情報は，
「これから豆乳秒二巻する新約であるＸＹＺについて説明します。」
「それは血糖値を下げますか？」という会話文に解析される。

会話区分選択工程（Ｓ１１０）
第1の会話区分である「これから糖尿病に関する新薬であるＸＹＺについて説明します。」に含まれる会話中用語である第１の会話中用語「糖尿病」，「新薬」，及び「ＸＹＺ」を抽出する。
そして，第１の会話中用語「糖尿病」，「新薬」，及び「ＸＹＺ」を用いて，トピックス語記憶部１９から，これらと関連して記憶されているトピックス語を読み出す。なお，ここでは，３つの会話中用語に共通するトピックス語である「ＸＹＺ」を第１のトピックス語として抽出する。
第２の会話区分である「これから豆乳秒二巻する新約であるＸＹＺについて説明します。」に含まれる会話中用語である第２の会話中用語「豆乳」，「秒」，「二巻」，「新約」及び「ＸＹＺ」を抽出する。第２の会話中用語「豆乳」，「秒」，「二巻」，「新約」及び「ＸＹＺ」を用いて，トピックス語記憶部１９から，これらと関連して記憶されているトピックス語を読み出す。なお，ここでは，５つの会話中用語のなかで共通することが最も多かったトピックス語である「聖書」を第２のトピックス語として抽出する。
第１のトピックス語である「ＸＹＺ」と，特定関連語である，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，及び「添付文書」と比較すると，第１のトピックス語は特定関連語であることがわかる。一方，第２のトピックス語である「聖書」と特定関連語とを比較すると，第２のトピックス語は特定関連語ではないことが分かる。この結果を用いて，第1の会話区分である「これから糖尿病に関する新薬であるＸＹＺについて説明します。」を正しい会話区分として採用する。これに続く２番目の会話区分についても同様にして，いずれが正しいか判断する。このようにして採用された会話区分の連続を記憶部に記憶する。
会話区分の連続は，「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは血糖値を下げますか？」である。

上記は処理の例であり，これと異なる処理を行って正しい会話区分を採用してもよい。

図４は，音声解析システムの第２の処理例を示す概念図である。この例では，第２の音声解析端末において，会話区分が分析され，会話区分が分析された第２の会話情報が，第１の音声解析端末に送られるものである。この例においても，会話区分の齟齬を避けるため，各会話区分について時刻情報が関連して記憶され，第２の音声解析端末から第１の音声解析端末へ，時刻情報と合わせて送信させることが好ましい。すると，第１の音声解析端末においては，第１の会話情報に含まれる会話区分と第２の会話情報に含まれる会話区分とを一致させることができる。

図５は，音声解析システムの上記とは別の処理例を示す概念図である。この例では，第２の音声解析端末が収音し，デジタル化された会話情報が，第1の音声解析端末へ送信され，第１の音声解析端末が各種解析を行う。なお，特に図示しないが，第１の音声解析端末のみならず，第２の音声解析端末においても，正しい会話区分を解析するようにしてもよい。

このシステムは，音声解析装置として利用されうる。特に，グーグルスピーカー（登録商標）など，音声解析装置は，今後より普及することが考えられる。また，スマートフォンや携帯端末といったユーザに身近な端末にも音声解析装置が実装されることが想定される。例えば，音声解析装置にユーザの声とは別のノイズが収録され，ユーザの声を収録しにくい場合も想定される。一方，そのような場合であっても，ユーザの身近に存在する端末は，ユーザの声を適切に収録できている可能性がある。すると，ユーザに身近な端末が音声情報を収録し，音声解析装置と音声情報を共有することで，より精度高く音声を解析できることとなる。

１音声解析システム
３第１の音声解析端末
５第２の音声解析端末

７第１の用語解析部
９第１の会話記憶部
１１第１の解析部
１３プレゼンテーション記憶部
１５関連語記憶部
１７表示部
１９トピックス語記憶部

２１第２の用語解析部
２３第２の会話記憶部

２５会話情報受信部
３１特定プレゼンテーション情報取得部
３３第１の会話区分取得部
３５特定関連語読出部
３７第１の会話中用語抽出部
３９第１のトピックス語抽出部
４１第２の会話中用語抽出部
４３第２のトピックス語抽出部
４５会話区分採用部

Claims

第１の音声解析端末（３）と第２の音声解析端末（５）とを含む音声解析システムを用いた音声解析方法であって，
第１の音声解析端末（３）が，
会話に含まれる単語を解析し，第１の会話情報を得る第１の用語解析工程と，
第２の音声解析端末（５）が，
前記会話に含まれる単語を解析し，第２の会話情報を得る第２の用語解析工程と，
前記音声解析システムが，
複数のプレゼンテーション資料のうちのあるプレゼンテーション資料である特定プレゼンテーション資料が選択されたことに関する情報を受け取る特定プレゼンテーション情報取得工程と，
第１の会話情報における会話区分を分析し，１又は複数の会話区分を得る第１の会話区分取得工程と，
前記特定プレゼンテーション資料に関連する関連語である特定関連語を読み出す特定関連語読出工程と，
第１の会話情報におけるある会話区分である第1の会話区分に含まれる，会話中用語である第１の会話中用語を抽出する第１の会話中用語抽出工程と，
第１の会話中用語と関連するトピックス語である第１のトピックス語を抽出する第１のトピックス語抽出工程と，
第２の会話情報における第1の会話区分に対応する会話区分である第２の会話区分に含まれる会話中用語である第２の会話中用語を抽出する第２の会話中用語抽出工程と，
第２の会話中用語と関連するトピックス語である第２のトピックス語を抽出する第２のトピックス語抽出工程と，
第１のトピックス語と前記特定関連語の関係及び第２のトピックス語と前記特定関連語との関係を用いて，第１の会話区分又は第２の会話区分を正しい会話区分として採用する会話区分採用工程と，を含む，
音声解析方法。
請求項１に記載の音声解析方法であって，
前記会話区分採用工程は，
第１のトピックス語と第２のトピックス語が異なる場合であって，
第１のトピックス語が前記特定関連語であり，第２のトピックス語が前記特定関連語でないときは，第１の会話情報における第1の会話区分を正しい会話区分として採用し，
第１のトピックス語が前記特定関連語でなく，第２のトピックス語が前記特定関連語であるときは，第２の会話情報における第２の会話区分を正しい会話区分として採用する，音声解析方法。
請求項１に記載の音声解析方法であって，
前記会話区分採用工程は，
第１のトピックス語が前記特定関連語である数と，第２のトピックス語が前記特定関連語である数とを比較し，前者が多い場合は第1の会話区分を正しい会話区分として採用し，後者が多い場合は第２の会話区分を正しい会話区分として採用する，音声解析方法。
請求項１に記載の音声解析方法であって，
第１の音声解析端末（３）は，時刻時間を記憶するための時刻記憶部（５１）を有し，
第１の会話情報は，前記会話に含まれる単語とともに，各単語と関連した時刻を含み，
第１の会話区分取得工程は，各単語の時刻情報を用いて，会話区分を分析する，音声解析方法。
請求項１に記載の音声解析方法であって，
第１の音声解析端末（３）は，会話に含まれる音声の周波数を解析する周波数解析部（５３）を有し，
第１の会話情報は，前記会話に含まれる単語とともに，各単語と関連した音声の周波数を含み，
第１の会話区分取得工程は，各単語の周波数を用いて，会話区分を分析する，音声解析方法。