JP2019138989A

JP2019138989A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2019138989A
Application number: JP2018020600A
Authority: JP
Inventors: 裕介村松; Yusuke Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2019-08-22

Abstract

【課題】ユーザの発話を音声認識してテキスト化し、その発話テキストを元に議事録を生成する議事録生成システムにおいて、会議の円滑な進行に与える影響を最低限に抑えつつ、特に重要な発言に関しては可能な限り正確に記録に残すことが望まれる。【解決手段】会議におけるユーザの発話のうち、音声認識の制度が低い発話に対しては、再発話が必要かを判定する。そして、重要な単語が含まれていたり、ユーザが重要と判断していた発話に対しては、ユーザに再発話を要求し、再発話の必要な発話の内容を再発話の内容で置換する。【選択図】図３

Description

本発明は、人の発話を音声認識してテキスト化する情報処理装置に関するものであり、特に、情報処理装置を用いて、会議におけるユーザの発話内容から議事録を生成する議事録生成システムに関する。

会議の議事録を人手で作成する煩雑さを解消するために、参加者の発話を音声認識してテキスト化し、そのテキストを要約することで議事録を自動的に生成するシステムが提案されている。一方、音声認識の精度は発話内容や集音環境によって大きく左右され、常に良好な精度が得られるとは限らない。特に会議での決定事項や次回までのアクションアイテムの確認といった重要な場面では、音声認識精度の低下は議事録の品質に致命的な影響を与えかねない。

特許文献１には、電話応答システムで音声データの欠落を検知して音声データの信頼度を判定し、信頼度が低い箇所の音声認識は「認識結果無し」又は所定の認識結果に置き換えて出力するシステムが開示されている。また特許文献１のシステムには、信頼度が低い箇所を検出した場合にユーザに当該箇所を発話し直すこと（以下、「再発話」と言う）を要求し、撮り直した信頼度の高い音声データを音声認識する機能も含まれる。

特許第４３４００５６号

特許文献１の技術によれば、会議中の発話のうち音声認識の精度が低い箇所を判定し、当該箇所はユーザに再発話を要求してより精度の高い音声認識結果を得ることができる。しかし、会議中に何度もユーザに再発話を要求することは、円滑な進行を妨げる要因になる。特に会議の発話の集音をユーザ毎に個別のマイクを使って行うのではなく、会議室の中央に置いた単一マイクで集音しようとした場合、音声認識の精度が低下しやすく、ユーザへの再発話要求は頻繁になることが予想される。

本発明は、発話された音声データを音声認識する認識手段と、前記認識手段の結果に基づいて、再発話が必要か否かを判定する判定手段と、第１の発話について再発話が必要と前記判定手段が判定した場合、第２の発話の再発話を促す要求手段と、再発話が必要な前記第１の発話を、再発話された前記第２の発話で、置換する置換手段と、を有することを特徴とする情報処理装置である。

再発話が必要であると判断された箇所についてのみユーザに再発話を促すことにより、会議の円滑な進行に与える影響を最低限に抑えつつ、品質の高い議事録を生成することができる。

会議システムの構成例を示す図である。会議装置と会議サーバの構成例を示すブロック図である。会議情報記録処理を示すフローチャートである。表示デバイスに表示される画面例である。会議情報のデータ構成例である。再発話を記録した直後の会議情報のデータ構成例である。再発話により発話を置換した直後の会議情報のデータ構成例である。再発話により単語を置換した直後の会議情報のデータ構成例である。再発話要否判定処理を示すフローチャートである。発話置換処理を示すフローチャートである。発話置換処理を示すフローチャートである。テキスト類似度判定処理を示すフローチャートである。対応単語判定処理を示すフローチャートである。議事録生成処理を示すフローチャートである。生成される議事録の概要である。

以下、本発明の実施例について図面を用いて説明する。

図１は、情報処理システムとしての会議システムの構成を示す図である。

会議システム１００は、会議装置１０１と会議サーバ１０２より構成される。会議装置１０１と会議サーバ１０２はネットワーク１０３を介して接続されている。

会議装置１０１は、音声認識装置としての情報処理装置の一例であり、例えば一般的なＰＣ（Personal Computer）である。
会議装置１０１は、例えば会議テーブル上のように、会議室などの会議開催場所に配置される。会議装置１０１は、会議中に発生する音声や画像など複数の種類のデータ（以下、「会議情報」と言う）を記録する。そして、会議装置１０１は、会議情報を会議サーバ１０２に送信する。
なお、図１において、会議システム１００は、会議装置１０１と会議サーバ１０２を一台ずつ備えているが、会議装置１０１または会議サーバ１０２を、それぞれ、複数台備えるよう構成してもよい。
また、本実施例では、会議装置１０１と会議サーバ１０２とを別離した装置として記載しているが、両装置の機能を備えた単一の装置として構成されてもよい。

会議装置１０１は、例えばオフィスや所定の会場等において開催される会議を記録することを想定している。しかし、本発明が適用対象とする会議は、オフィスや所定の会場等において開催される狭義の会議には限定されず、複数の人物の視認／発声行動を伴う集まりであればよい。例えば、面接や、取り調べ等も本発明の適用対象となる。また、ＰＣなどのネットワーク機材を用いて遠隔会議を行う場合でも本発明の会議に相当する。

会議サーバ１０２は、一般的なＰＣやクラウドサーバである。会議サーバ１０２は、会議装置１０１から会議情報を受信し、これを解析・加工して議事録を作成する。会議サーバ１０２は、会議情報に含まれる音声データを音声認識してテキストを生成する。また、会議情報に含まれる画像データを文字認識してテキストを生成する。そして、これらテキストを含む情報より議事録を生成し、作成した議事録を配信する。

図２は、図１の会議装置１０１および会議サーバ１０２のハードウェア構成例を示すブロック図である。
図２（ａ）で、会議装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、ストレージ２０５、入力デバイス２０６、表示デバイス２０７、外部インターフェース２０８、カメラデバイス２０９、マイクデバイス２１０、スピーカーデバイス２１１を備える。これら各デバイスは、データバス２０３を介して相互にデータを送受信することができる。なお、ＣＰＵは、Central Processing Unit の略称である。ＲＡＭは、Random Access Memory の略称である。ＲＯＭは、Read Only Memory の略称である。

ＣＰＵ２０１は、会議装置全体を制御するためのコントローラである。ＣＰＵ２０１は、不揮発メモリであるＲＯＭ２０２に格納されているブートプログラムによりＯＳ（Operating System）を起動する。ＣＰＵ２０１は、ＯＳの上で、ストレージ２０５に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置全体を制御するプログラムである。ＣＰＵ２０１は、データバス２０３などのバスを介して各デバイスを制御する。
ＲＡＭ２０４は、ＣＰＵ２０１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２０５は、読み出しと書き込みが可能な不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置１０１は、会議情報を会議サーバ１０２へ送信するまでの間、ストレージ２０５に会議情報を記録する。

入力デバイス２０６は、タッチパネルやハードキー、マウスなどから構成される入力装置である。また、表示デバイス２０７は、ＬＣＤなどの表示装置である。入力デバイス２０６は、ユーザの操作指示を受け付けると、ＣＰＵ２０１に伝達する。
表示デバイス２０７は、ＣＰＵ２０１が生成した表示画像データを画面上に表示する。ＣＰＵ２０１は、入力デバイス２０６から受信した指示情報と、表示デバイス２０７に表示させている表示画像データとに基づいて、操作を判定する。ＣＰＵ２０１は、判定結果に応じて、会議装置１０１を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス２０７に表示させる。

外部インターフェース２０８は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器と各種データの送信あるいは受信を行う。
カメラデバイス２０９は、いわゆるデジタルカメラであり、動画や画像を撮影することができる。
マイクデバイス２１０は、入力された音声をデジタル信号化する手段である。例えば、ユーザが発話した音声を、ＷＡＶＥ形式などの音声データとして取得する。
スピーカーデバイス２１１は、通知音声などの出力を行う。

図２（ｂ）で、会議サーバ１０２は、ＣＰＵ２５１、ＲＯＭ２５２、ＲＡＭ２５４、ストレージ２５５、入力デバイス２５６、表示デバイス２５７、外部インターフェース２５８を備える。各デバイスは、データバス２５３を介して相互にデータを送受信することができる。

ＣＰＵ２５１は、この会議サーバ全体を制御するためのコントローラである。ＣＰＵ２５１は、不揮発メモリであるＲＯＭ２５２に格納されているブートプログラムによりＯＳを起動する。ＯＳの上で、ストレージ２５５に記憶されている会議サーバプログラムを実行する。ＣＰＵ２５１が会議サーバプログラムを実行することより、会議サーバ１０２の各処理を実現する。ＣＰＵ２５１は、データバス２５３などのバスを介して各部を制御する。

ＲＡＭ２５４は、ＣＰＵ２５１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２５５は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。

入力デバイス２５６および表示デバイス２５７は、図２（ａ）を用いて説明した入力デバイス２０６および表示デバイス２０７と同様である。
外部インターフェース２５８は、図２を用いて説明した外部インターフェース２０８と同様である。

次に、会議装置１０１の会議情報の記録処理について説明する。
図３は、会議情報記録処理を示すフローチャートである。
会議装置１０１の電源キー（不図示）を操作して電源をＯＮにすると、ＣＰＵ２０１は、ストレージ２０５に記録されているコントローラプログラムを読み込む。そして、ＲＡＭ２０４に展開して実行する。これにより、会議装置１０１は会議情報記録処理を実行することが可能となる。
また、この時ＣＰＵ２０１は、表示デバイス２０７に開始画面４００を表示する。この時に表示される開始画面４００を図４（ａ）に示す。図４（ａ）において、「開始」ボタン４０１は、ユーザが会議装置１０１に会議の開始を指示するために用いられる。

まず、Ｓ３０１において、ＣＰＵ２０１は、会議を開始する指示がなされたか否かを判定する。「開始」ボタン４０１への指示がなされていたら、ＹＥＳと判定し、Ｓ３０２に移る。そして、ＣＰＵ２０１は、表示デバイス２０７に会議中画面４１０を表示する。会議中画面４１０の例を図４（ｂ）に示す。
図４（ｂ）において、「重要発話」ボタン４１１は、ユーザの発話が重要な発話であることを会議装置１０１に指示するために用いられる。「終了」ボタン４１２は、ユーザが会議装置１０１に会議の終了を指示するために用いられる。一方、開始画面４００（図４（ａ））において、「開始」ボタン４０１への指示がなされていなければ、ＮＯと判定し、Ｓ３１１に移る。

Ｓ３０２において、ＣＰＵ２０１は、マイクデバイス２１０から入力されたユーザの音声を音声認識し、発話内容をテキスト化したもの（以下、「発話テキスト」と言う）を取得する。
ここで、ＣＰＵ２０１は、音声データを先頭から走査して次の処理を行う。ＣＰＵ２０１は、音声データ中の無音区間を検出する。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。ある無音区間と次の無音区間の間の区間を発話区間とする。
ＣＰＵ２０１は、個々の発話区間について、音声認識を行って発話テキストを取得する。また、ここでの音声認識は発話テキストと共に、発話テキストの読みを全て平仮名で表記したもの（以下、「読みデータ」と言う）と、発話テキストに含まれる単語毎の読みデータと認識結果の信頼度を判定する。認識結果の信頼度とは、発話テキストが実際の発話と合致している確率であり、音声認識の過程で入力音声から音響モデルを用いて音素列を推定した確率と、更に音素列から言語モデルを用いて発話テキストを推定した確率を用いて求められる。

Ｓ３０３において、ＣＰＵ２０１は、Ｓ３０２で取得した発話テキストと読みデータを発話テキストテーブル５００に、単語とその読みデータと認識結果の信頼度を単語テーブル５１０にそれぞれ記録する。この発話テキストテーブル５００と単語テーブル５１０を図５に示す。
図５（ａ）の発話テキストテーブル５００において、発言ＩＤフィールド５０１には、発言毎に自動で付与される識別ＩＤを記録する。発話時刻フィールド５０２には、発話の音声認識を行った時刻を記録する。発話テキストフィールド５０３には、Ｓ３０２で取得した発話テキストを記録する。読みデータフィールド５０４には、Ｓ３０２で取得した読みデータを記録する。未修正フィールド５０５には、ユーザがシステムによる再発話要求に応じなかったかを記録する。未修正フィールド５０５には、その発話がユーザによる修正が必要であり、かつ、実際に修正作業が行われなかった発話である場合のみ「１」を、それ以外の場合は「０」を記録する。
図５（ｂ）の単語テーブル５１０において、単語ＩＤ５１１には、単語ごとに自動で付与される識別ＩＤを記録する。発話ＩＤ５１２には、その単語が含まれる発話テキストの発話ＩＤを記録する。単語フィールド５１３には、発話テキストに含まれる単語を一つずつ記録する。読みデータフィールド５１４には、その単語の読みを平仮名で記載したものを記録する。信頼度フィールド５１５には、Ｓ３０２で取得した単語ごとの認識結果の信頼度を記録する。
なお、図５は一例として、ユーザが「資料Ａの修正を来週火曜までの宿題にします。」と発話し、ＣＰＵ２０１がＳ３０２で「資料Ａの修正を来週可動までの宿題にします。」と音声認識し、Ｓ３０３で各テーブルに記録した直後の状態を示す。

Ｓ３０４において、ＣＰＵ２０１は、ユーザによる再発話の要否を判定する。この再発話要否判定処理の詳細は、図９において後述する。

Ｓ３０５において、ＣＰＵ２０１は、Ｓ３０４での判定の結果、再発話が必要か否かを判別する。Ｓ３０４で再発話が必要と判定された場合は、ＹＥＳと判別し、Ｓ３０６に移る。Ｓ３０４で再発話が不要と判定された場合は、ＮＯと判別し、Ｓ３０８に移る。

Ｓ３０６において、ＣＰＵ２０１は、表示デバイス２０７とスピーカーデバイス２１１を用いてユーザに再発話を要求する。ＣＰＵ２０１は、表示デバイス２０７に再発話要求画面４２０を表示する。
再発話要求画面４２０の例を図４（ｃ）に示す。図４（ｃ）において、「再発話」ボタン４２１は、ユーザの発話がシステムからの要求に応じた再発話であることを会議装置１０１に指示するために用いられる。また、ＣＰＵ２０１はスピーカーデバイス２１１から、例えば「重要な発言を認識できませんでしたので、申し訳ございませんが、今の発言をもう一度繰り返して頂けませんでしょうか」といった音声を出力し、ユーザに再発話を促す。

Ｓ３０７において、ＣＰＵ２０１は、Ｓ３０４で判定された置換が必要な発話テキスト、または単語を置換する。この発話置換処理の詳細は、図１０において後述する。

Ｓ３０８において、ＣＰＵ２０１は、ユーザの「終了」ボタン４１２（図４（ｂ））への指示による会議終了指示がなされたか否かを判定する。会議終了指示がなされていれば、ＹＥＳと判定し、Ｓ３０９に移る。このとき、ＣＰＵ２０１は、表示デバイス２０７に会議終了画面４３０を表示する。
会議終了画面４３０を図４（ｄ）に示す。図４（ｄ）において、送信先フィールド４３１は、ユーザが会議装置１０１に、会議システム１００が作成する議事録の送信先を指定するためのものである。ユーザは、入力デバイス２０６を介して、送信先フィールド４３１に、所望の送信先を入力することができる。送信先として、例えば、メールアドレスを入力することができる。「ＯＫ」ボタン４３２は、ユーザが会議装置１０１に、会議終了の確定を指示するために用いられる。
一方、「終了」ボタン４１２への指示がなされていなければ、ＮＯと判定し、Ｓ３０２に遷移する。

Ｓ３０９において、ＣＰＵ２０１は、会議終了を確定する指示がなされたか否かを判定する。送信先フィールド４３１に送信先が入力され、かつ「ＯＫ」ボタン４３２への指示がなされていれば、ＹＥＳと判定し、Ｓ３１０に遷移する。送信先フィールド４３１に送信先が入力されていない、あるいは、「ＯＫ」ボタン４３２への指示がなされていなければ、ＮＯと判定し、再度Ｓ３０９の処理を行う。

Ｓ３１０において、ＣＰＵ２０１は、以上の処理により記録した発話テキストテーブル５００と、送信先フィールド４３１に入力された送信先を、会議情報として一つに纏め、外部インターフェース２０８を介し会議サーバ１０２に送信する。送信後には、発話テキストテーブル５００をストレージ２０５から削除してもよい。また、ＣＰＵ２０１は、画面４００の表示画像データを生成して、表示デバイス２０７に表示する。

Ｓ３１１において、ＣＰＵ２０１は、電源をオフする指示がなされたか否かを判定する。会議装置１０１の電源キー（不図示）への指示がなされていれば、ＹＥＳと判定し、処理を終了する。会議装置１０１の電源キー（不図示）への指示がなされていなければ、ＮＯと判定し、Ｓ３０１に移る。

次に、図３のフローチャートにおける再発話要否判定処理Ｓ３０４の詳細について説明する。図９は、本実施例における再発話要否判定処理を示すフローチャートである。

図９（ａ）のＳ９０１において、ＣＰＵ２０１は、単語テーブル５１０のうち、発話ＩＤがＳ３０３で記録した発話ＩＤであるものを走査し、単語フィールド５１３が所定の重要単語（例えばＴｏＤｏ、宿題等）と一致するものがあるかを判定する。この重要単語はユーザによって予め定義されているものとする。重要単語と一致するものがある場合は、ＹＥＳと判定し、Ｓ９０２に移る。重要単語と一致するものがない場合は、ＮＯと判定し、Ｓ９０４に移る。

Ｓ９０２において、ＣＰＵ２０１は、単語テーブル５１０のうち、発話ＩＤフィールド５１２にＳ３０３で記録した発話の発話ＩＤが記録されているものを走査し、信頼度が所定の閾値を下回るものがないかを判定する。ここでの閾値はユーザによって予め定義されているものとする。図５の例では、所定の閾値を６０％と設定していた場合、単語ＩＤ５６４９１４の単語が閾値を下回ると判定する。閾値を下回るものがある場合は、ＹＥＳと判定し、Ｓ９０３に移る。閾値を下回るものがない場合は、ＮＯと判定し、Ｓ９０４に移る。

Ｓ９０３において、ＣＰＵ２０１は、Ｓ９０２で信頼度が閾値を下回ると判定した単語の単語ＩＤと、その単語を含む発話の発話ＩＤを、置換が必要な単語ＩＤ、及び発話ＩＤとして記録する。図５の例では、信頼度が閾値以下であった単語の単語ＩＤ５６４９１４と、その単語を含む発話の発話ＩＤ３７６５を、それぞれ置換が必要な単語ＩＤ、発話ＩＤとして記録する。その上で、再発話要否判定処理としては再発話が必要と判定し、図３のフローチャートにおけるＳ３０５に移る。

Ｓ９０４において、ＣＰＵ２０１は、再発話要否判定処理としては再発話が不要と判定し、図３のフローチャートにおけるＳ３０５に移る。

また、再発話要否判定処理は、ユーザが重要な発話をシステムに明示的に指定するよう構成してもよい。その場合の処理を図９（ｂ）に示す。なお本フローチャートにおいて、Ｓ９０５以外のステップは、図９（ａ）に示した同符号のステップと同様である。

Ｓ９０５において、ＣＰＵ２０１は、図３におけるＳ３０２からＳ３０３の間にユーザの「重要発話」ボタン４１１への指示による重要発話の指定がなされたか否かを判定する。重要発話の指定がなされていた場合は、ＹＥＳと判定し、Ｓ９０２に移る。重要発話の指定がなされていない場合は、ＮＯと判定し、Ｓ９０４に移る。

図９（ｂ）の処理によれば、重要な発話をユーザが明示的に指定することにより、予め定義された重要単語が含まれるが、ユーザは重要と判断していない発話に対しては、再発話を促すことなく、会議を円滑に進行することができる。

次に、図３のフローチャートにおける発話置換処理Ｓ３０７の詳細について説明する。図１０は、発話置換処理を示すフローチャートである。

図１０（ａ）のＳ１００１において、ＣＰＵ２０１は、マイクデバイス２１０から入力されたユーザの音声を音声認識し、発話テキスト、その読みデータ、及び、単語データを取得する。ここでの音声認識は図３のフローチャートにおけるＳ３０２と同じ手順である。

Ｓ１００２において、ＣＰＵ２０１は、Ｓ１００１で取得した発話テキストと読みデータを発話テキストテーブル５００に、単語、読みデータ、認識結果の信頼度を、単語テーブル５１０にそれぞれ記録する。なお、図６は、一例として、ユーザがＳ３０６での再発話要求を受けて「来週火曜までに修正。」と発話し、ＣＰＵ２０１がＳ１００１で「来週火曜までに修正。」と音声認識し、Ｓ１００２で各テーブルに記録した直後の状態を示す。

Ｓ１００３において、ＣＰＵ２０１は、発話テキストテーブル５００及び単語テーブル５１０のうち、それぞれ発話ＩＤがＳ９０３で記録した置換が必要な発話ＩＤと一致するものを削除する。図７は、上述の例において、Ｓ１００３の削除の処理が終了した直後の状態を示す。

また、発話置換処理は、再発話を要求した直後の発話ではなく、再発話の要求後一定の期間になされた発話の中から、ユーザによる再発話と推測される発話を探索して置換するよう構成してもよい。その場合の処理を図１０（ｂ）に示す。なお、本フローチャートにおいて、Ｓ１００１、Ｓ１００２及びＳ１００３は、図１０（ａ）に示した同符号のステップと同様である。

Ｓ１００４において、ＣＰＵ２０１は、Ｓ９０３で置換が必要と判定された発話テキストと、Ｓ１００２で記録した発話テキストの類似度を判定する。テキスト類似度判定処理の詳細は、図１１において後述する。

Ｓ１００５において、ＣＰＵ２０１は、Ｓ１００４のテキスト類似度判定処理の結果、発話テキストが類似しているか否かを判別する。Ｓ１００４で発話テキストが類似していると判定された場合は、ＹＥＳと判別し、Ｓ１００３に移る。Ｓ１００４で発話テキストが類似していないと判定された場合は、ＮＯと判別し、Ｓ１００７に移る。

Ｓ１００７において、ＣＰＵ２０１は、Ｓ３０６で再発話を促した後の、所定数のユーザの発話について、Ｓ１００１からＳ１００５までの処理を行ったか否かを判断する。所定数の発話について処理を行った場合は、ＹＥＳと判定し、Ｓ１００８に移る。所定数の発話について処理を行っていない場合は、ＮＯと判定し、Ｓ１００１に移る。

Ｓ１００８において、ＣＰＵ２０１は、Ｓ９０３で記録した置換が必要な発話について、ユーザの再発話による修正が行われなかったとみなして、発話が未修正であると記録する。具体的には、発話テキストテーブル５００のうち、発話ＩＤがＳ９０３で記録した発話ＩＤと一致するものを選び、その未修正フィールド５０５に「１」を記録する。また、このとき、ＣＰＵ２０１は、表示デバイス２０７に会議中画面４１０を表示する。

図１０（ｂ）の処理によれば、再発話を要求した直後にユーザが別の発話をしていても、一定期間以内に再発話を行えば、発話を置換することができる。

また、発話置換処理は、再発話の要求後の発話を解析し、置換が必要な発話を単語レベルで置換するよう構成してもよい。その場合の処理を図１０（ｃ）に示す。なお本フローチャートにおいて、Ｓ１００１、Ｓ１００２、Ｓ１００７及びＳ１００８は、図１０（ｂ）に示した同符号のステップと同様である。

Ｓ１００９において、ＣＰＵ２０１は、Ｓ１００２で記録した発話中の単語に、Ｓ９０３で記録した置換が必要な単語と対応するものがあるかを判定する。この対応単語判定処理の詳細は、図１２において後述する。

Ｓ１００６において、ＣＰＵ２０１は、Ｓ１００９の対応単語判定処理の結果、Ｓ９０３で記録した置換が必要な単語に対応するものがあったか否かを判定する。Ｓ１００９で対応する単語があったと判定された場合は、ＹＥＳと判別し、Ｓ１０１０に移る。Ｓ１００９で対応する単語がなかったと判定された場合は、ＮＯと判別し、Ｓ１００７に移る。

Ｓ１０１０において、ＣＰＵ２０１は、Ｓ９０３で記録した置換が必要な単語を、それと対応する単語で置換する。具体的には、まず、単語テーブル５１０のうち、単語ＩＤがＳ９０３で記録した単語の単語ＩＤと一致するものについて、単語ＩＤと発話ＩＤ以外のフィールドを、図１２で後述する、対応単語判定処理のＳ１２０３で特定した対応単語のデータで上書きする。次に、単語テーブル５１０のうち、発話ＩＤがＳ９０３で記録した発話の発話ＩＤと一致するものを全て抜き出し、それらの単語を結合したものと読みデータを結合したものを、発話テキストテーブル５００の当該発話ＩＤのものに上書きする。

Ｓ１０１１において、ＣＰＵ２０１は、発話テキストテーブル５００及び単語テーブル５１０のうち、それぞれ発話ＩＤがＳ９０３で記録した発話ＩＤと一致するものを削除する。図８に、上述の例で、置換が必要な単語である単語ＩＤ５６４９１４の「可動」に対応する単語が、再発話に含まれる単語ＩＤ５６４９２１の「火曜」と判定された場合の、Ｓ１０１０の置換とＳ１０１１の削除の処理が終了した状態を示す。

図１０（ｃ）の処理によれば、再発話の内容が、置換の必要な発話の内容を全て網羅していない状態でも、置換が必要な単語さえ含まれていればよいため、再発話の内容の自由度が向上する。

また、発話置換処理は、再発話をユーザが明示的に指定するよう構成してもよい。その場合の処理を図１０（ｄ）に示す。なお、本フローチャートにおいて、Ｓ１０１２以外のステップは、図１０（ｃ）に示した同符号のステップと同様である。

Ｓ１０１２において、ＣＰＵ２０１は、Ｓ１００１からＳ１００２の間に、ユーザの「再発話」ボタン４２１への指示による再発話指示がなされたか否かを判定する。再発話指示がなされていた場合は、ＹＥＳと判定し、Ｓ１００９に移る。再発話指示がなされていなかった場合は、ＮＯと判定し、Ｓ１００７に移る。

図１０（ｄ）の処理によれば、再発話をユーザが明示的に指定することにより、置換が必要な単語が本来は再発話ではない発話に含まれる単語に誤って置換されてしまうことを抑止できる。

次に、図１０（ｂ）のフローチャートにおけるテキスト類似度判定処理Ｓ１００４の詳細について説明する。図１１は、本実施例におけるテキスト類似度判定処理を示すフローチャートである。

図１１（ａ）のＳ１１０１において、ＣＰＵ２０１は、Ｓ９０３で記録した置換が必要な発話テキストと、Ｓ１００２で記録した再発話の発話テキストの構成単語の一致率を算出する。構成単語の一致率は、置換が必要な発話テキストを構成する単語の数に占める、両発話テキストに共通して含まれる単語の数の割合により算出される。

Ｓ１１０２において、ＣＰＵ２０１は、Ｓ１１０１で算出した構成単語の一致率が閾値以上か否かを判定する。閾値以上であれば、ＹＥＳと判定し、Ｓ１１０３に移る。閾値以上でなければ、ＮＯと判定し、Ｓ１１０４に移る。

Ｓ１１０３において、ＣＰＵ２０１は、テキスト類似度判定処理としては、両発話テキストは類似していると判定し、図１０のフローチャートにおけるＳ１００５に移る。

Ｃ１１０４において、ＣＰＵ２０１は、テキスト類似度判定処理としては、両発話テキストは類似していないと判定し、図１０のフローチャートにおけるＳ１００５に移る。

また、テキスト類似度判定処理は、構成単語の意味ベクトルを用いてテキストの類似度を判定するよう構成してもよい。その場合の処理を図１１（ｂ）に示す。なお、本フローチャートにおいて、Ｓ１１０３及びＳ１１０４のステップは、図１１（ａ）に示した同符号のステップと同様である。

Ｓ１１０５において、ＣＰＵ２０１は、Ｓ９０３で記録した置換が必要な発話テキストと、Ｓ１００２で記録した再発話テキストの両方に含まれる全ての単語について、意味ベクトルを求める。意味ベクトルは、単語の意味をベクトルで表現したものであり、例えば会議の議題と関連する文書を元データとして、Ｗｏｒｄ２Ｖｅｃの手法を適用することで求められる。

Ｓ１１０６において、ＣＰＵ２０１は、Ｓ９０３で記録した置換が必要な発話テキストに含まれる単語と、Ｓ１００２で記録した再発話テキストに含まれる単語について、意味ベクトルの近い組み合わせを作る。ここでは意味ベクトルの差が閾値以下になる組み合わせを、意味ベクトルの近い組み合わせとする。

Ｓ１１０７において、ＣＰＵ２０１は、Ｓ１１０６で作成した意味ベクトルの近い組み合わせの数が閾値以上か否かを判定する。閾値以上であれば、ＹＥＳと判定し、Ｓ１１０３に移る。閾値以上でなければ、ＮＯと判定し、Ｓ１１０４に移る。

図１１（ｂ）の処理によれば、同じ意味の言葉を別の表現で発話した場合でも、意味が類似していると判定できるため、再発話の内容の自由度が向上する。

次に、図１０（ｃ）及び図１０（ｄ）のフローチャートにおける対応単語判定処理Ｓ１００９の詳細について説明する。図１２は、対応単語判定処理を示すフローチャートである。

図１２（ａ）のＳ１２０１において、ＣＰＵ２０１は、Ｓ１００２で記録した再発話の発話テキストに含まれる各単語について、Ｓ９０３で記録した置換が必要な単語と読みデータを構成する文字の一致率を算出する。例えば、図６の例では、Ｓ１００２で記録した再発話テキストに含まれる単語ＩＤ５６４９２１の読みデータ「かよう」と、Ｓ９０３で記録した単語ＩＤ５６４９１４の読みデータ「かどう」は、３文字中２文字の一致のため、一致率は６６％である。

Ｓ１２０２において、ＣＰＵ２０１は、Ｓ１２０１で一致率を算出した各単語のうち、一致率が閾値以上の単語があるか否かを判定する。一致率が閾値以上の単語がある場合は、ＹＥＳと判定し、Ｓ１２０３に移る。一致率が閾値以上の単語がない場合は、ＮＯと判定し、Ｓ１２０４に移る。

Ｓ１２０３において、ＣＰＵ２０１は、Ｓ１２０２で一致率が閾値以上であると判定した単語（複数ある場合は一致率が最大のもの）の単語ＩＤを、対応単語として記録する。図６の例で、一致率の閾値を６０％と設定しており、Ｓ９０３で記録した単語ＩＤ５６４９１４との読みデータの一致率が６６％である単語ＩＤ５６４９２１を、対応単語として記録する。その上で、対応単語判定処理としては対応単語があると判定し、図１０（ｃ）又は図１０（ｄ）のフローチャートにおけるＳ１００６に移る。

Ｓ１２０４において、ＣＰＵ２０１は、対応単語判定処理としては対応単語がないと判定し、図１０（ｃ）又は図１０（ｄ）のフローチャートにおけるＳ１００６に移る。

また、対応単語判定処理は、意味ベクトルを用いて対応単語を判定するよう構成してもよい。その場合の処理を図１２（ｂ）に示す。なお、本フローチャートにおいて、Ｓ１２０３及びＳ１２０４のステップは、図１２（ａ）に示した同符号のステップと同様である。

Ｓ１２０５において、ＣＰＵ２０１は、Ｓ９０３で記録した置換が必要な単語と、Ｓ１００２で記録した再発話テキストに含まれる全ての単語について、意味ベクトルを求める。意味ベクトルは、単語の意味をベクトルで表現したものであり、例えば会議の議題と関連する文書を元データとして、Ｗｏｒｄ２Ｖｅｃの手法を適用することで求められる。

Ｓ１２０６において、ＣＰＵ２０１は、再発話テキストに含まれる単語のうち、置換が必要な単語と意味ベクトルが近いものがあるか否かを判定する。ここでは、意味ベクトルの差が閾値以下である組み合わせがあれば、意味ベクトルの近いものがあると判定とする。意味ベクトルの近い単語があれば、ＹＥＳと判定し、Ｓ１２０３に移る。意味ベクトルの近い単語がなければ、ＮＯと判定し、Ｓ１２０４に移る。

図１２（ｂ）の処理によれば、同じ意味の言葉を別の表現で発話した場合でも、意味が類似していると判定できるため、再発話の内容の自由度が向上する。

次に、会議サーバ１０２が議事録を生成する処理について説明する。図１３は、議事録生成処理を示すフローチャートである。会議サーバ１０２が起動すると、ＣＰＵ２５１は、ストレージ２５５に記録されている会議サーバプログラムを読み込む。そして、ＲＡＭ２５４に展開して実行する。これにより、会議サーバ１０２は議事録生成処理を実行することが可能となる。

まず、Ｓ１３０１において、ＣＰＵ２５１は、会議情報を受信したか否かを判定する。外部インターフェース２５８を介して、会議装置１０１から会議情報を受信しているならば、ＹＥＳと判定し、Ｓ１３０２に移る。外部インターフェース２５８を介して、会議装置１０１から会議情報を受信していなければ、ＮＯと判定し、Ｓ１３０６に移る。

Ｓ１３０２において、ＣＰＵ２５１は、会議情報に含まれる発話テキストテーブル５００のレコード全てを参照し、発話テキストに出現する単語それぞれについて、その重要度を算出する。これは、例えば、各単語の出現頻度に基づいて算出することができる。

Ｓ１３０３において、ＣＰＵ２５１は、会議情報に含まれる発話テキストテーブル５００の各レコードの発話テキストについて、それぞれその重要度を算出する。Ｓ１３０２で算出した各単語の重要度を参照し、それぞれの発話テキストに含まれる各単語の重要度の合計値を算出することで、発話テキストの重要度を決定する。

Ｓ１３０４において、ＣＰＵ２５１は、発話テキストテーブル５００のうち重要度が閾値以上のレコードを抽出する。そして、そのレコードを、議事を要約したテキストとみなして転記することで、議事録を生成する。この際、抽出した発話テキストの未修正フィールド５０５が「１」であった場合は、転記した発話テキストの末尾に、音声認識の信頼度が低いため情報に誤っている可能性がある旨を記載する。
図１４は、こうして生成された議事録１４００の概要を示す図である。図１４において、議事録１４００は一行目の会議開催時間１４０１と、二行目以降の要約テキスト１４０２及び１４０３からなる。
会議開催時間１４０１は、発話テキストテーブル５００のうち最初のレコードの発話時刻と、最後のレコードの発話時刻を転記することで生成する。要約テキスト１４０２及び１４０３は、Ｓ１３０４によって発話テキストテーブル５００から転記された発話テキストである。なお、要約テキスト１４０３は、未修正フィールド５０５が「１」だったレコードから転記された発話テキストであるため、音声認識が間違っている可能性がある旨を強調表示する。

Ｓ１３０５において、ＣＰＵ２５１は、議事録を、会議情報に含まれる送信先に送信する。送信方法としては、例えば、電子メールで送信することができる。ＣＰＵ２５１は、電子メール本文に議事録１４００を入力し、電子メールを送信する。
Ｓ１３０６において、ＣＰＵ２５１は、終了指示がなされたか否かを判定する。ユーザは、例えば、外部インターフェース２５８を介して、別体のＰＣから会議サーバ１０２に終了を指示することができる。終了指示がなされていたら、ＹＥＳと判定し、処理を終了する。終了指示がなされていなければ、ＮＯと判定し、Ｓ１３０１に遷移する。

以上、本実施例に示したとおり、ユーザの発話のうち重要な発話で、かつ、音声認識の信頼度が低いものに限定してユーザに再発話を促すことにより、会議の進行に与える影響を最低限に抑えつつ、品質の高い議事録を生成できる。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述の実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１００会議システム
１０１会議装置
１０２会議サーバ
５００発話テキストテーブル
５１０単語テーブル
１４００議事録

Claims

発話された音声データを音声認識する認識手段と、
前記認識手段の結果に基づいて、再発話が必要か否かを判定する判定手段と、
第１の発話について再発話が必要と前記判定手段が判定した場合、第２の発話の再発話を促す要求手段と、
再発話が必要な前記第１の発話を、再発話された前記第２の発話で、置換する置換手段と、を有することを特徴とする情報処理装置。
前記判定手段は、前記認識手段が音声認識した前記第１の発話の中に前記認識手段による音声認識の信頼度の低い単語が含まれる場合に、再発話が必要と判定することを特徴とする請求項１に記載の情報処理装置。
前記判定手段は、前記認識手段が音声認識した前記第１の発話の中に重要単語が含まれる場合に、再発話が必要と判定することを特徴とする請求項１または２に記載の情報処理装置。
前記判定手段は、前記第１の発話についてユーザにより明示的に重要な発話であることが示された場合に、再発話が必要と判定することを特徴とする請求項１または２に記載の情報処理装置。
前記認識手段が音声認識して生成したテキストから、会議の議事録を生成する議事録生成手段を備えることを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
前記置換手段は、前記判定手段で再発話が必要と判定された前記第１の発話を、前記要求手段が再発話を要求した直後の発話で置換することを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
発話テキストが類似しているかを判定するテキスト類似度判定手段を更に備え、
前記要求手段で再発話を要求した後の所定数の発話の中から、前記判定手段で再発話が必要と判定された前記第１の発話に含まれる第１のテキストと類似する第２のテキストが前記第２の発話に含まれると前記テキスト類似度判定手段が判定した場合、前記置換手段は、前記第１のテキストを前記第２のテキストで置換することを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記テキスト類似度判定手段は、前記第１のテキストと前記第２のテキストとの構成単語の一致率に基づいてテキストの類似度を判定することを特徴とする請求項７に記載の情報処理装置。
前記テキスト類似度判定手段は、前記第１のテキストと前記第２のテキストとの構成単語の意味ベクトルに基づいてテキストの類似度を判定することを特徴とする請求項７に記載の情報処理装置。
対応する単語があるかを判定する対応単語判定手段を更に備え、
前記要求手段で再発話を要求した後の所定数の発話の中から、前記判定手段で再発話が必要と判定された前記第１の発話に含まれる第１の単語と類似する第２の単語が前記第２の発話に含まれると前記対応単語判定手段が判定した場合、前記置換手段は、前記第１の単語を前記第２の単語で置換することを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
対応する単語があるかを判定する対応単語判定手段を更に備え、
前記対応単語判定手段は、ユーザにより明示的に再発話であることが指定された前記第２の発話に対して、前記判定手段で再発話が必要と判定された前記第１の発話に含まれる第１の単語と類似する第２の単語が含まれるか否かの対応単語判定を行うことを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
前記対応単語判定手段は、単語の読みを構成する文字の一致率に基づいて、前記第１の単語に対応する前記第２の単語があるかを判定することを特徴とする請求項１０または１１に記載の情報処理装置。
前記対応単語判定手段は、単語の意味ベクトルに基づいて、前記第１の単語に対応する前記第２の単語があるかを判定することを特徴とする請求項１０または１１に記載の情報処理装置。
再発話が必要であると前記判定手段が判定した前記第１の発話に対して、再発話が行われなかった場合、前記置換手段は、前記第１の発話を未修正とすることを特徴とする請求項１から１２のいずれか１項に記載の情報処理装置。
再発話が必要であると前記判定手段が判定した前記第１の発話に対して、前記置換手段が、未修正とするとした場合、前記第１の発話に基づくテキストを強調表示する議事録生成手段を有することを特徴とする請求項１３に記載の情報処理装置。
発話された音声データを音声認識する認識工程と、
前記認識工程の結果に基づいて、再発話が必要か否かを判定する判定工程と、
第１の発話について再発話が必要と前記判定工程で判定した場合、第２の発話の再発話を促す要求工程と、
再発話が必要な前記第１の発話を、再発話された前記第２の発話で、置換する置換工程と、を有することを特徴とする情報処理方法。
請求項１５に記載の情報処理方法をコンピュータにより実行させるためのプログラム。