JP2019138989A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2019138989A JP2019138989A JP2018020600A JP2018020600A JP2019138989A JP 2019138989 A JP2019138989 A JP 2019138989A JP 2018020600 A JP2018020600 A JP 2018020600A JP 2018020600 A JP2018020600 A JP 2018020600A JP 2019138989 A JP2019138989 A JP 2019138989A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- word
- text
- information processing
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】ユーザの発話を音声認識してテキスト化し、その発話テキストを元に議事録を生成する議事録生成システムにおいて、会議の円滑な進行に与える影響を最低限に抑えつつ、特に重要な発言に関しては可能な限り正確に記録に残すことが望まれる。【解決手段】会議におけるユーザの発話のうち、音声認識の制度が低い発話に対しては、再発話が必要かを判定する。そして、重要な単語が含まれていたり、ユーザが重要と判断していた発話に対しては、ユーザに再発話を要求し、再発話の必要な発話の内容を再発話の内容で置換する。【選択図】図3
Description
本発明は、人の発話を音声認識してテキスト化する情報処理装置に関するものであり、特に、情報処理装置を用いて、会議におけるユーザの発話内容から議事録を生成する議事録生成システムに関する。
会議の議事録を人手で作成する煩雑さを解消するために、参加者の発話を音声認識してテキスト化し、そのテキストを要約することで議事録を自動的に生成するシステムが提案されている。一方、音声認識の精度は発話内容や集音環境によって大きく左右され、常に良好な精度が得られるとは限らない。特に会議での決定事項や次回までのアクションアイテムの確認といった重要な場面では、音声認識精度の低下は議事録の品質に致命的な影響を与えかねない。
特許文献1には、電話応答システムで音声データの欠落を検知して音声データの信頼度を判定し、信頼度が低い箇所の音声認識は「認識結果無し」又は所定の認識結果に置き換えて出力するシステムが開示されている。また特許文献1のシステムには、信頼度が低い箇所を検出した場合にユーザに当該箇所を発話し直すこと(以下、「再発話」と言う)を要求し、撮り直した信頼度の高い音声データを音声認識する機能も含まれる。
特許文献1の技術によれば、会議中の発話のうち音声認識の精度が低い箇所を判定し、当該箇所はユーザに再発話を要求してより精度の高い音声認識結果を得ることができる。しかし、会議中に何度もユーザに再発話を要求することは、円滑な進行を妨げる要因になる。特に会議の発話の集音をユーザ毎に個別のマイクを使って行うのではなく、会議室の中央に置いた単一マイクで集音しようとした場合、音声認識の精度が低下しやすく、ユーザへの再発話要求は頻繁になることが予想される。
本発明は、発話された音声データを音声認識する認識手段と、前記認識手段の結果に基づいて、再発話が必要か否かを判定する判定手段と、第1の発話について再発話が必要と前記判定手段が判定した場合、第2の発話の再発話を促す要求手段と、再発話が必要な前記第1の発話を、再発話された前記第2の発話で、置換する置換手段と、を有することを特徴とする情報処理装置である。
再発話が必要であると判断された箇所についてのみユーザに再発話を促すことにより、会議の円滑な進行に与える影響を最低限に抑えつつ、品質の高い議事録を生成することができる。
以下、本発明の実施例について図面を用いて説明する。
図1は、情報処理システムとしての会議システムの構成を示す図である。
会議システム100は、会議装置101と会議サーバ102より構成される。会議装置101と会議サーバ102はネットワーク103を介して接続されている。
会議装置101は、音声認識装置としての情報処理装置の一例であり、例えば一般的なPC(Personal Computer)である。
会議装置101は、例えば会議テーブル上のように、会議室などの会議開催場所に配置される。会議装置101は、会議中に発生する音声や画像など複数の種類のデータ(以下、「会議情報」と言う)を記録する。そして、会議装置101は、会議情報を会議サーバ102に送信する。
なお、図1において、会議システム100は、会議装置101と会議サーバ102を一台ずつ備えているが、会議装置101または会議サーバ102を、それぞれ、複数台備えるよう構成してもよい。
また、本実施例では、会議装置101と会議サーバ102とを別離した装置として記載しているが、両装置の機能を備えた単一の装置として構成されてもよい。
会議装置101は、例えば会議テーブル上のように、会議室などの会議開催場所に配置される。会議装置101は、会議中に発生する音声や画像など複数の種類のデータ(以下、「会議情報」と言う)を記録する。そして、会議装置101は、会議情報を会議サーバ102に送信する。
なお、図1において、会議システム100は、会議装置101と会議サーバ102を一台ずつ備えているが、会議装置101または会議サーバ102を、それぞれ、複数台備えるよう構成してもよい。
また、本実施例では、会議装置101と会議サーバ102とを別離した装置として記載しているが、両装置の機能を備えた単一の装置として構成されてもよい。
会議装置101は、例えばオフィスや所定の会場等において開催される会議を記録することを想定している。しかし、本発明が適用対象とする会議は、オフィスや所定の会場等において開催される狭義の会議には限定されず、複数の人物の視認/発声行動を伴う集まりであればよい。例えば、面接や、取り調べ等も本発明の適用対象となる。また、PCなどのネットワーク機材を用いて遠隔会議を行う場合でも本発明の会議に相当する。
会議サーバ102は、一般的なPCやクラウドサーバである。会議サーバ102は、会議装置101から会議情報を受信し、これを解析・加工して議事録を作成する。会議サーバ102は、会議情報に含まれる音声データを音声認識してテキストを生成する。また、会議情報に含まれる画像データを文字認識してテキストを生成する。そして、これらテキストを含む情報より議事録を生成し、作成した議事録を配信する。
図2は、図1の会議装置101および会議サーバ102のハードウェア構成例を示すブロック図である。
図2(a)で、会議装置101は、CPU201、ROM202、RAM204、ストレージ205、入力デバイス206、表示デバイス207、外部インターフェース208、カメラデバイス209、マイクデバイス210、スピーカーデバイス211を備える。これら各デバイスは、データバス203を介して相互にデータを送受信することができる。なお、CPUは、Central Processing Unit の略称である。RAMは、Random Access Memory の略称である。ROMは、Read Only Memory の略称である。
図2(a)で、会議装置101は、CPU201、ROM202、RAM204、ストレージ205、入力デバイス206、表示デバイス207、外部インターフェース208、カメラデバイス209、マイクデバイス210、スピーカーデバイス211を備える。これら各デバイスは、データバス203を介して相互にデータを送受信することができる。なお、CPUは、Central Processing Unit の略称である。RAMは、Random Access Memory の略称である。ROMは、Read Only Memory の略称である。
CPU201は、会議装置全体を制御するためのコントローラである。CPU201は、不揮発メモリであるROM202に格納されているブートプログラムによりOS(Operating System)を起動する。CPU201は、OSの上で、ストレージ205に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置全体を制御するプログラムである。CPU201は、データバス203などのバスを介して各デバイスを制御する。
RAM204は、CPU201のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ205は、読み出しと書き込みが可能な不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置101は、会議情報を会議サーバ102へ送信するまでの間、ストレージ205に会議情報を記録する。
RAM204は、CPU201のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ205は、読み出しと書き込みが可能な不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置101は、会議情報を会議サーバ102へ送信するまでの間、ストレージ205に会議情報を記録する。
入力デバイス206は、タッチパネルやハードキー、マウスなどから構成される入力装置である。また、表示デバイス207は、LCDなどの表示装置である。入力デバイス206は、ユーザの操作指示を受け付けると、CPU201に伝達する。
表示デバイス207は、CPU201が生成した表示画像データを画面上に表示する。CPU201は、入力デバイス206から受信した指示情報と、表示デバイス207に表示させている表示画像データとに基づいて、操作を判定する。CPU201は、判定結果に応じて、会議装置101を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス207に表示させる。
表示デバイス207は、CPU201が生成した表示画像データを画面上に表示する。CPU201は、入力デバイス206から受信した指示情報と、表示デバイス207に表示させている表示画像データとに基づいて、操作を判定する。CPU201は、判定結果に応じて、会議装置101を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス207に表示させる。
外部インターフェース208は、LANや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器と各種データの送信あるいは受信を行う。
カメラデバイス209は、いわゆるデジタルカメラであり、動画や画像を撮影することができる。
マイクデバイス210は、入力された音声をデジタル信号化する手段である。例えば、ユーザが発話した音声を、WAVE形式などの音声データとして取得する。
スピーカーデバイス211は、通知音声などの出力を行う。
カメラデバイス209は、いわゆるデジタルカメラであり、動画や画像を撮影することができる。
マイクデバイス210は、入力された音声をデジタル信号化する手段である。例えば、ユーザが発話した音声を、WAVE形式などの音声データとして取得する。
スピーカーデバイス211は、通知音声などの出力を行う。
図2(b)で、会議サーバ102は、CPU251、ROM252、RAM254、ストレージ255、入力デバイス256、表示デバイス257、外部インターフェース258を備える。各デバイスは、データバス253を介して相互にデータを送受信することができる。
CPU251は、この会議サーバ全体を制御するためのコントローラである。CPU251は、不揮発メモリであるROM252に格納されているブートプログラムによりOSを起動する。OSの上で、ストレージ255に記憶されている会議サーバプログラムを実行する。CPU251が会議サーバプログラムを実行することより、会議サーバ102の各処理を実現する。CPU251は、データバス253などのバスを介して各部を制御する。
RAM254は、CPU251のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ255は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。
入力デバイス256および表示デバイス257は、図2(a)を用いて説明した入力デバイス206および表示デバイス207と同様である。
外部インターフェース258は、図2を用いて説明した外部インターフェース208と同様である。
外部インターフェース258は、図2を用いて説明した外部インターフェース208と同様である。
次に、会議装置101の会議情報の記録処理について説明する。
図3は、会議情報記録処理を示すフローチャートである。
会議装置101の電源キー(不図示)を操作して電源をONにすると、CPU201は、ストレージ205に記録されているコントローラプログラムを読み込む。そして、RAM204に展開して実行する。これにより、会議装置101は会議情報記録処理を実行することが可能となる。
また、この時CPU201は、表示デバイス207に開始画面400を表示する。この時に表示される開始画面400を図4(a)に示す。図4(a)において、「開始」ボタン401は、ユーザが会議装置101に会議の開始を指示するために用いられる。
図3は、会議情報記録処理を示すフローチャートである。
会議装置101の電源キー(不図示)を操作して電源をONにすると、CPU201は、ストレージ205に記録されているコントローラプログラムを読み込む。そして、RAM204に展開して実行する。これにより、会議装置101は会議情報記録処理を実行することが可能となる。
また、この時CPU201は、表示デバイス207に開始画面400を表示する。この時に表示される開始画面400を図4(a)に示す。図4(a)において、「開始」ボタン401は、ユーザが会議装置101に会議の開始を指示するために用いられる。
まず、S301において、CPU201は、会議を開始する指示がなされたか否かを判定する。「開始」ボタン401への指示がなされていたら、YESと判定し、S302に移る。そして、CPU201は、表示デバイス207に会議中画面410を表示する。会議中画面410の例を図4(b)に示す。
図4(b)において、「重要発話」ボタン411は、ユーザの発話が重要な発話であることを会議装置101に指示するために用いられる。「終了」ボタン412は、ユーザが会議装置101に会議の終了を指示するために用いられる。一方、開始画面400(図4(a))において、「開始」ボタン401への指示がなされていなければ、NOと判定し、S311に移る。
図4(b)において、「重要発話」ボタン411は、ユーザの発話が重要な発話であることを会議装置101に指示するために用いられる。「終了」ボタン412は、ユーザが会議装置101に会議の終了を指示するために用いられる。一方、開始画面400(図4(a))において、「開始」ボタン401への指示がなされていなければ、NOと判定し、S311に移る。
S302において、CPU201は、マイクデバイス210から入力されたユーザの音声を音声認識し、発話内容をテキスト化したもの(以下、「発話テキスト」と言う)を取得する。
ここで、CPU201は、音声データを先頭から走査して次の処理を行う。CPU201は、音声データ中の無音区間を検出する。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。ある無音区間と次の無音区間の間の区間を発話区間とする。
CPU201は、個々の発話区間について、音声認識を行って発話テキストを取得する。また、ここでの音声認識は発話テキストと共に、発話テキストの読みを全て平仮名で表記したもの(以下、「読みデータ」と言う)と、発話テキストに含まれる単語毎の読みデータと認識結果の信頼度を判定する。認識結果の信頼度とは、発話テキストが実際の発話と合致している確率であり、音声認識の過程で入力音声から音響モデルを用いて音素列を推定した確率と、更に音素列から言語モデルを用いて発話テキストを推定した確率を用いて求められる。
ここで、CPU201は、音声データを先頭から走査して次の処理を行う。CPU201は、音声データ中の無音区間を検出する。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。ある無音区間と次の無音区間の間の区間を発話区間とする。
CPU201は、個々の発話区間について、音声認識を行って発話テキストを取得する。また、ここでの音声認識は発話テキストと共に、発話テキストの読みを全て平仮名で表記したもの(以下、「読みデータ」と言う)と、発話テキストに含まれる単語毎の読みデータと認識結果の信頼度を判定する。認識結果の信頼度とは、発話テキストが実際の発話と合致している確率であり、音声認識の過程で入力音声から音響モデルを用いて音素列を推定した確率と、更に音素列から言語モデルを用いて発話テキストを推定した確率を用いて求められる。
S303において、CPU201は、S302で取得した発話テキストと読みデータを発話テキストテーブル500に、単語とその読みデータと認識結果の信頼度を単語テーブル510にそれぞれ記録する。この発話テキストテーブル500と単語テーブル510を図5に示す。
図5(a)の発話テキストテーブル500において、発言IDフィールド501には、発言毎に自動で付与される識別IDを記録する。発話時刻フィールド502には、発話の音声認識を行った時刻を記録する。発話テキストフィールド503には、S302で取得した発話テキストを記録する。読みデータフィールド504には、S302で取得した読みデータを記録する。未修正フィールド505には、ユーザがシステムによる再発話要求に応じなかったかを記録する。未修正フィールド505には、その発話がユーザによる修正が必要であり、かつ、実際に修正作業が行われなかった発話である場合のみ「1」を、それ以外の場合は「0」を記録する。
図5(b)の単語テーブル510において、単語ID511には、単語ごとに自動で付与される識別IDを記録する。発話ID512には、その単語が含まれる発話テキストの発話IDを記録する。単語フィールド513には、発話テキストに含まれる単語を一つずつ記録する。読みデータフィールド514には、その単語の読みを平仮名で記載したものを記録する。信頼度フィールド515には、S302で取得した単語ごとの認識結果の信頼度を記録する。
なお、図5は一例として、ユーザが「資料Aの修正を来週火曜までの宿題にします。」と発話し、CPU201がS302で「資料Aの修正を来週可動までの宿題にします。」と音声認識し、S303で各テーブルに記録した直後の状態を示す。
図5(a)の発話テキストテーブル500において、発言IDフィールド501には、発言毎に自動で付与される識別IDを記録する。発話時刻フィールド502には、発話の音声認識を行った時刻を記録する。発話テキストフィールド503には、S302で取得した発話テキストを記録する。読みデータフィールド504には、S302で取得した読みデータを記録する。未修正フィールド505には、ユーザがシステムによる再発話要求に応じなかったかを記録する。未修正フィールド505には、その発話がユーザによる修正が必要であり、かつ、実際に修正作業が行われなかった発話である場合のみ「1」を、それ以外の場合は「0」を記録する。
図5(b)の単語テーブル510において、単語ID511には、単語ごとに自動で付与される識別IDを記録する。発話ID512には、その単語が含まれる発話テキストの発話IDを記録する。単語フィールド513には、発話テキストに含まれる単語を一つずつ記録する。読みデータフィールド514には、その単語の読みを平仮名で記載したものを記録する。信頼度フィールド515には、S302で取得した単語ごとの認識結果の信頼度を記録する。
なお、図5は一例として、ユーザが「資料Aの修正を来週火曜までの宿題にします。」と発話し、CPU201がS302で「資料Aの修正を来週可動までの宿題にします。」と音声認識し、S303で各テーブルに記録した直後の状態を示す。
S304において、CPU201は、ユーザによる再発話の要否を判定する。この再発話要否判定処理の詳細は、図9において後述する。
S305において、CPU201は、S304での判定の結果、再発話が必要か否かを判別する。S304で再発話が必要と判定された場合は、YESと判別し、S306に移る。S304で再発話が不要と判定された場合は、NOと判別し、S308に移る。
S306において、CPU201は、表示デバイス207とスピーカーデバイス211を用いてユーザに再発話を要求する。CPU201は、表示デバイス207に再発話要求画面420を表示する。
再発話要求画面420の例を図4(c)に示す。図4(c)において、「再発話」ボタン421は、ユーザの発話がシステムからの要求に応じた再発話であることを会議装置101に指示するために用いられる。また、CPU201はスピーカーデバイス211から、例えば「重要な発言を認識できませんでしたので、申し訳ございませんが、今の発言をもう一度繰り返して頂けませんでしょうか」といった音声を出力し、ユーザに再発話を促す。
再発話要求画面420の例を図4(c)に示す。図4(c)において、「再発話」ボタン421は、ユーザの発話がシステムからの要求に応じた再発話であることを会議装置101に指示するために用いられる。また、CPU201はスピーカーデバイス211から、例えば「重要な発言を認識できませんでしたので、申し訳ございませんが、今の発言をもう一度繰り返して頂けませんでしょうか」といった音声を出力し、ユーザに再発話を促す。
S307において、CPU201は、S304で判定された置換が必要な発話テキスト、または単語を置換する。この発話置換処理の詳細は、図10において後述する。
S308において、CPU201は、ユーザの「終了」ボタン412(図4(b))への指示による会議終了指示がなされたか否かを判定する。会議終了指示がなされていれば、YESと判定し、S309に移る。このとき、CPU201は、表示デバイス207に会議終了画面430を表示する。
会議終了画面430を図4(d)に示す。図4(d)において、送信先フィールド431は、ユーザが会議装置101に、会議システム100が作成する議事録の送信先を指定するためのものである。ユーザは、入力デバイス206を介して、送信先フィールド431に、所望の送信先を入力することができる。送信先として、例えば、メールアドレスを入力することができる。「OK」ボタン432は、ユーザが会議装置101に、会議終了の確定を指示するために用いられる。
一方、「終了」ボタン412への指示がなされていなければ、NOと判定し、S302に遷移する。
会議終了画面430を図4(d)に示す。図4(d)において、送信先フィールド431は、ユーザが会議装置101に、会議システム100が作成する議事録の送信先を指定するためのものである。ユーザは、入力デバイス206を介して、送信先フィールド431に、所望の送信先を入力することができる。送信先として、例えば、メールアドレスを入力することができる。「OK」ボタン432は、ユーザが会議装置101に、会議終了の確定を指示するために用いられる。
一方、「終了」ボタン412への指示がなされていなければ、NOと判定し、S302に遷移する。
S309において、CPU201は、会議終了を確定する指示がなされたか否かを判定する。送信先フィールド431に送信先が入力され、かつ「OK」ボタン432への指示がなされていれば、YESと判定し、S310に遷移する。送信先フィールド431に送信先が入力されていない、あるいは、「OK」ボタン432への指示がなされていなければ、NOと判定し、再度S309の処理を行う。
S310において、CPU201は、以上の処理により記録した発話テキストテーブル500と、送信先フィールド431に入力された送信先を、会議情報として一つに纏め、外部インターフェース208を介し会議サーバ102に送信する。送信後には、発話テキストテーブル500をストレージ205から削除してもよい。また、CPU201は、画面400の表示画像データを生成して、表示デバイス207に表示する。
S311において、CPU201は、電源をオフする指示がなされたか否かを判定する。会議装置101の電源キー(不図示)への指示がなされていれば、YESと判定し、処理を終了する。会議装置101の電源キー(不図示)への指示がなされていなければ、NOと判定し、S301に移る。
次に、図3のフローチャートにおける再発話要否判定処理S304の詳細について説明する。図9は、本実施例における再発話要否判定処理を示すフローチャートである。
図9(a)のS901において、CPU201は、単語テーブル510のうち、発話IDがS303で記録した発話IDであるものを走査し、単語フィールド513が所定の重要単語(例えばToDo、宿題等)と一致するものがあるかを判定する。この重要単語はユーザによって予め定義されているものとする。重要単語と一致するものがある場合は、YESと判定し、S902に移る。重要単語と一致するものがない場合は、NOと判定し、S904に移る。
S902において、CPU201は、単語テーブル510のうち、発話IDフィールド512にS303で記録した発話の発話IDが記録されているものを走査し、信頼度が所定の閾値を下回るものがないかを判定する。ここでの閾値はユーザによって予め定義されているものとする。図5の例では、所定の閾値を60%と設定していた場合、単語ID564914の単語が閾値を下回ると判定する。閾値を下回るものがある場合は、YESと判定し、S903に移る。閾値を下回るものがない場合は、NOと判定し、S904に移る。
S903において、CPU201は、S902で信頼度が閾値を下回ると判定した単語の単語IDと、その単語を含む発話の発話IDを、置換が必要な単語ID、及び発話IDとして記録する。図5の例では、信頼度が閾値以下であった単語の単語ID564914と、その単語を含む発話の発話ID3765を、それぞれ置換が必要な単語ID、発話IDとして記録する。その上で、再発話要否判定処理としては再発話が必要と判定し、図3のフローチャートにおけるS305に移る。
S904において、CPU201は、再発話要否判定処理としては再発話が不要と判定し、図3のフローチャートにおけるS305に移る。
また、再発話要否判定処理は、ユーザが重要な発話をシステムに明示的に指定するよう構成してもよい。その場合の処理を図9(b)に示す。なお本フローチャートにおいて、S905以外のステップは、図9(a)に示した同符号のステップと同様である。
S905において、CPU201は、図3におけるS302からS303の間にユーザの「重要発話」ボタン411への指示による重要発話の指定がなされたか否かを判定する。重要発話の指定がなされていた場合は、YESと判定し、S902に移る。重要発話の指定がなされていない場合は、NOと判定し、S904に移る。
図9(b)の処理によれば、重要な発話をユーザが明示的に指定することにより、予め定義された重要単語が含まれるが、ユーザは重要と判断していない発話に対しては、再発話を促すことなく、会議を円滑に進行することができる。
次に、図3のフローチャートにおける発話置換処理S307の詳細について説明する。図10は、発話置換処理を示すフローチャートである。
図10(a)のS1001において、CPU201は、マイクデバイス210から入力されたユーザの音声を音声認識し、発話テキスト、その読みデータ、及び、単語データを取得する。ここでの音声認識は図3のフローチャートにおけるS302と同じ手順である。
S1002において、CPU201は、S1001で取得した発話テキストと読みデータを発話テキストテーブル500に、単語、読みデータ、認識結果の信頼度を、単語テーブル510にそれぞれ記録する。なお、図6は、一例として、ユーザがS306での再発話要求を受けて「来週火曜までに修正。」と発話し、CPU201がS1001で「来週火曜までに修正。」と音声認識し、S1002で各テーブルに記録した直後の状態を示す。
S1003において、CPU201は、発話テキストテーブル500及び単語テーブル510のうち、それぞれ発話IDがS903で記録した置換が必要な発話IDと一致するものを削除する。図7は、上述の例において、S1003の削除の処理が終了した直後の状態を示す。
また、発話置換処理は、再発話を要求した直後の発話ではなく、再発話の要求後一定の期間になされた発話の中から、ユーザによる再発話と推測される発話を探索して置換するよう構成してもよい。その場合の処理を図10(b)に示す。なお、本フローチャートにおいて、S1001、S1002及びS1003は、図10(a)に示した同符号のステップと同様である。
S1004において、CPU201は、S903で置換が必要と判定された発話テキストと、S1002で記録した発話テキストの類似度を判定する。テキスト類似度判定処理の詳細は、図11において後述する。
S1005において、CPU201は、S1004のテキスト類似度判定処理の結果、発話テキストが類似しているか否かを判別する。S1004で発話テキストが類似していると判定された場合は、YESと判別し、S1003に移る。S1004で発話テキストが類似していないと判定された場合は、NOと判別し、S1007に移る。
S1007において、CPU201は、S306で再発話を促した後の、所定数のユーザの発話について、S1001からS1005までの処理を行ったか否かを判断する。所定数の発話について処理を行った場合は、YESと判定し、S1008に移る。所定数の発話について処理を行っていない場合は、NOと判定し、S1001に移る。
S1008において、CPU201は、S903で記録した置換が必要な発話について、ユーザの再発話による修正が行われなかったとみなして、発話が未修正であると記録する。具体的には、発話テキストテーブル500のうち、発話IDがS903で記録した発話IDと一致するものを選び、その未修正フィールド505に「1」を記録する。また、このとき、CPU201は、表示デバイス207に会議中画面410を表示する。
図10(b)の処理によれば、再発話を要求した直後にユーザが別の発話をしていても、一定期間以内に再発話を行えば、発話を置換することができる。
また、発話置換処理は、再発話の要求後の発話を解析し、置換が必要な発話を単語レベルで置換するよう構成してもよい。その場合の処理を図10(c)に示す。なお本フローチャートにおいて、S1001、S1002、S1007及びS1008は、図10(b)に示した同符号のステップと同様である。
S1009において、CPU201は、S1002で記録した発話中の単語に、S903で記録した置換が必要な単語と対応するものがあるかを判定する。この対応単語判定処理の詳細は、図12において後述する。
S1006において、CPU201は、S1009の対応単語判定処理の結果、S903で記録した置換が必要な単語に対応するものがあったか否かを判定する。S1009で対応する単語があったと判定された場合は、YESと判別し、S1010に移る。S1009で対応する単語がなかったと判定された場合は、NOと判別し、S1007に移る。
S1010において、CPU201は、S903で記録した置換が必要な単語を、それと対応する単語で置換する。具体的には、まず、単語テーブル510のうち、単語IDがS903で記録した単語の単語IDと一致するものについて、単語IDと発話ID以外のフィールドを、図12で後述する、対応単語判定処理のS1203で特定した対応単語のデータで上書きする。次に、単語テーブル510のうち、発話IDがS903で記録した発話の発話IDと一致するものを全て抜き出し、それらの単語を結合したものと読みデータを結合したものを、発話テキストテーブル500の当該発話IDのものに上書きする。
S1011において、CPU201は、発話テキストテーブル500及び単語テーブル510のうち、それぞれ発話IDがS903で記録した発話IDと一致するものを削除する。図8に、上述の例で、置換が必要な単語である単語ID564914の「可動」に対応する単語が、再発話に含まれる単語ID564921の「火曜」と判定された場合の、S1010の置換とS1011の削除の処理が終了した状態を示す。
図10(c)の処理によれば、再発話の内容が、置換の必要な発話の内容を全て網羅していない状態でも、置換が必要な単語さえ含まれていればよいため、再発話の内容の自由度が向上する。
また、発話置換処理は、再発話をユーザが明示的に指定するよう構成してもよい。その場合の処理を図10(d)に示す。なお、本フローチャートにおいて、S1012以外のステップは、図10(c)に示した同符号のステップと同様である。
S1012において、CPU201は、S1001からS1002の間に、ユーザの「再発話」ボタン421への指示による再発話指示がなされたか否かを判定する。再発話指示がなされていた場合は、YESと判定し、S1009に移る。再発話指示がなされていなかった場合は、NOと判定し、S1007に移る。
図10(d)の処理によれば、再発話をユーザが明示的に指定することにより、置換が必要な単語が本来は再発話ではない発話に含まれる単語に誤って置換されてしまうことを抑止できる。
次に、図10(b)のフローチャートにおけるテキスト類似度判定処理S1004の詳細について説明する。図11は、本実施例におけるテキスト類似度判定処理を示すフローチャートである。
図11(a)のS1101において、CPU201は、S903で記録した置換が必要な発話テキストと、S1002で記録した再発話の発話テキストの構成単語の一致率を算出する。構成単語の一致率は、置換が必要な発話テキストを構成する単語の数に占める、両発話テキストに共通して含まれる単語の数の割合により算出される。
S1102において、CPU201は、S1101で算出した構成単語の一致率が閾値以上か否かを判定する。閾値以上であれば、YESと判定し、S1103に移る。閾値以上でなければ、NOと判定し、S1104に移る。
S1103において、CPU201は、テキスト類似度判定処理としては、両発話テキストは類似していると判定し、図10のフローチャートにおけるS1005に移る。
C1104において、CPU201は、テキスト類似度判定処理としては、両発話テキストは類似していないと判定し、図10のフローチャートにおけるS1005に移る。
また、テキスト類似度判定処理は、構成単語の意味ベクトルを用いてテキストの類似度を判定するよう構成してもよい。その場合の処理を図11(b)に示す。なお、本フローチャートにおいて、S1103及びS1104のステップは、図11(a)に示した同符号のステップと同様である。
S1105において、CPU201は、S903で記録した置換が必要な発話テキストと、S1002で記録した再発話テキストの両方に含まれる全ての単語について、意味ベクトルを求める。意味ベクトルは、単語の意味をベクトルで表現したものであり、例えば会議の議題と関連する文書を元データとして、Word2Vecの手法を適用することで求められる。
S1106において、CPU201は、S903で記録した置換が必要な発話テキストに含まれる単語と、S1002で記録した再発話テキストに含まれる単語について、意味ベクトルの近い組み合わせを作る。ここでは意味ベクトルの差が閾値以下になる組み合わせを、意味ベクトルの近い組み合わせとする。
S1107において、CPU201は、S1106で作成した意味ベクトルの近い組み合わせの数が閾値以上か否かを判定する。閾値以上であれば、YESと判定し、S1103に移る。閾値以上でなければ、NOと判定し、S1104に移る。
図11(b)の処理によれば、同じ意味の言葉を別の表現で発話した場合でも、意味が類似していると判定できるため、再発話の内容の自由度が向上する。
次に、図10(c)及び図10(d)のフローチャートにおける対応単語判定処理S1009の詳細について説明する。図12は、対応単語判定処理を示すフローチャートである。
図12(a)のS1201において、CPU201は、S1002で記録した再発話の発話テキストに含まれる各単語について、S903で記録した置換が必要な単語と読みデータを構成する文字の一致率を算出する。例えば、図6の例では、S1002で記録した再発話テキストに含まれる単語ID564921の読みデータ「かよう」と、S903で記録した単語ID564914の読みデータ「かどう」は、3文字中2文字の一致のため、一致率は66%である。
S1202において、CPU201は、S1201で一致率を算出した各単語のうち、一致率が閾値以上の単語があるか否かを判定する。一致率が閾値以上の単語がある場合は、YESと判定し、S1203に移る。一致率が閾値以上の単語がない場合は、NOと判定し、S1204に移る。
S1203において、CPU201は、S1202で一致率が閾値以上であると判定した単語(複数ある場合は一致率が最大のもの)の単語IDを、対応単語として記録する。図6の例で、一致率の閾値を60%と設定しており、S903で記録した単語ID564914との読みデータの一致率が66%である単語ID564921を、対応単語として記録する。その上で、対応単語判定処理としては対応単語があると判定し、図10(c)又は図10(d)のフローチャートにおけるS1006に移る。
S1204において、CPU201は、対応単語判定処理としては対応単語がないと判定し、図10(c)又は図10(d)のフローチャートにおけるS1006に移る。
また、対応単語判定処理は、意味ベクトルを用いて対応単語を判定するよう構成してもよい。その場合の処理を図12(b)に示す。なお、本フローチャートにおいて、S1203及びS1204のステップは、図12(a)に示した同符号のステップと同様である。
S1205において、CPU201は、S903で記録した置換が必要な単語と、S1002で記録した再発話テキストに含まれる全ての単語について、意味ベクトルを求める。意味ベクトルは、単語の意味をベクトルで表現したものであり、例えば会議の議題と関連する文書を元データとして、Word2Vecの手法を適用することで求められる。
S1206において、CPU201は、再発話テキストに含まれる単語のうち、置換が必要な単語と意味ベクトルが近いものがあるか否かを判定する。ここでは、意味ベクトルの差が閾値以下である組み合わせがあれば、意味ベクトルの近いものがあると判定とする。意味ベクトルの近い単語があれば、YESと判定し、S1203に移る。意味ベクトルの近い単語がなければ、NOと判定し、S1204に移る。
図12(b)の処理によれば、同じ意味の言葉を別の表現で発話した場合でも、意味が類似していると判定できるため、再発話の内容の自由度が向上する。
次に、会議サーバ102が議事録を生成する処理について説明する。図13は、議事録生成処理を示すフローチャートである。会議サーバ102が起動すると、CPU251は、ストレージ255に記録されている会議サーバプログラムを読み込む。そして、RAM254に展開して実行する。これにより、会議サーバ102は議事録生成処理を実行することが可能となる。
まず、S1301において、CPU251は、会議情報を受信したか否かを判定する。外部インターフェース258を介して、会議装置101から会議情報を受信しているならば、YESと判定し、S1302に移る。外部インターフェース258を介して、会議装置101から会議情報を受信していなければ、NOと判定し、S1306に移る。
S1302において、CPU251は、会議情報に含まれる発話テキストテーブル500のレコード全てを参照し、発話テキストに出現する単語それぞれについて、その重要度を算出する。これは、例えば、各単語の出現頻度に基づいて算出することができる。
S1303において、CPU251は、会議情報に含まれる発話テキストテーブル500の各レコードの発話テキストについて、それぞれその重要度を算出する。S1302で算出した各単語の重要度を参照し、それぞれの発話テキストに含まれる各単語の重要度の合計値を算出することで、発話テキストの重要度を決定する。
S1304において、CPU251は、発話テキストテーブル500のうち重要度が閾値以上のレコードを抽出する。そして、そのレコードを、議事を要約したテキストとみなして転記することで、議事録を生成する。この際、抽出した発話テキストの未修正フィールド505が「1」であった場合は、転記した発話テキストの末尾に、音声認識の信頼度が低いため情報に誤っている可能性がある旨を記載する。
図14は、こうして生成された議事録1400の概要を示す図である。図14において、議事録1400は一行目の会議開催時間1401と、二行目以降の要約テキスト1402及び1403からなる。
会議開催時間1401は、発話テキストテーブル500のうち最初のレコードの発話時刻と、最後のレコードの発話時刻を転記することで生成する。要約テキスト1402及び1403は、S1304によって発話テキストテーブル500から転記された発話テキストである。なお、要約テキスト1403は、未修正フィールド505が「1」だったレコードから転記された発話テキストであるため、音声認識が間違っている可能性がある旨を強調表示する。
図14は、こうして生成された議事録1400の概要を示す図である。図14において、議事録1400は一行目の会議開催時間1401と、二行目以降の要約テキスト1402及び1403からなる。
会議開催時間1401は、発話テキストテーブル500のうち最初のレコードの発話時刻と、最後のレコードの発話時刻を転記することで生成する。要約テキスト1402及び1403は、S1304によって発話テキストテーブル500から転記された発話テキストである。なお、要約テキスト1403は、未修正フィールド505が「1」だったレコードから転記された発話テキストであるため、音声認識が間違っている可能性がある旨を強調表示する。
S1305において、CPU251は、議事録を、会議情報に含まれる送信先に送信する。送信方法としては、例えば、電子メールで送信することができる。CPU251は、電子メール本文に議事録1400を入力し、電子メールを送信する。
S1306において、CPU251は、終了指示がなされたか否かを判定する。ユーザは、例えば、外部インターフェース258を介して、別体のPCから会議サーバ102に終了を指示することができる。終了指示がなされていたら、YESと判定し、処理を終了する。終了指示がなされていなければ、NOと判定し、S1301に遷移する。
S1306において、CPU251は、終了指示がなされたか否かを判定する。ユーザは、例えば、外部インターフェース258を介して、別体のPCから会議サーバ102に終了を指示することができる。終了指示がなされていたら、YESと判定し、処理を終了する。終了指示がなされていなければ、NOと判定し、S1301に遷移する。
以上、本実施例に示したとおり、ユーザの発話のうち重要な発話で、かつ、音声認識の信頼度が低いものに限定してユーザに再発話を促すことにより、会議の進行に与える影響を最低限に抑えつつ、品質の高い議事録を生成できる。
(その他の実施例)
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述の実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述の実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 会議システム
101 会議装置
102 会議サーバ
500 発話テキストテーブル
510 単語テーブル
1400 議事録
101 会議装置
102 会議サーバ
500 発話テキストテーブル
510 単語テーブル
1400 議事録
Claims (17)
- 発話された音声データを音声認識する認識手段と、
前記認識手段の結果に基づいて、再発話が必要か否かを判定する判定手段と、
第1の発話について再発話が必要と前記判定手段が判定した場合、第2の発話の再発話を促す要求手段と、
再発話が必要な前記第1の発話を、再発話された前記第2の発話で、置換する置換手段と、を有することを特徴とする情報処理装置。 - 前記判定手段は、前記認識手段が音声認識した前記第1の発話の中に前記認識手段による音声認識の信頼度の低い単語が含まれる場合に、再発話が必要と判定することを特徴とする請求項1に記載の情報処理装置。
- 前記判定手段は、前記認識手段が音声認識した前記第1の発話の中に重要単語が含まれる場合に、再発話が必要と判定することを特徴とする請求項1または2に記載の情報処理装置。
- 前記判定手段は、前記第1の発話についてユーザにより明示的に重要な発話であることが示された場合に、再発話が必要と判定することを特徴とする請求項1または2に記載の情報処理装置。
- 前記認識手段が音声認識して生成したテキストから、会議の議事録を生成する議事録生成手段を備えることを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
- 前記置換手段は、前記判定手段で再発話が必要と判定された前記第1の発話を、前記要求手段が再発話を要求した直後の発話で置換することを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
- 発話テキストが類似しているかを判定するテキスト類似度判定手段を更に備え、
前記要求手段で再発話を要求した後の所定数の発話の中から、前記判定手段で再発話が必要と判定された前記第1の発話に含まれる第1のテキストと類似する第2のテキストが前記第2の発話に含まれると前記テキスト類似度判定手段が判定した場合、前記置換手段は、前記第1のテキストを前記第2のテキストで置換することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。 - 前記テキスト類似度判定手段は、前記第1のテキストと前記第2のテキストとの構成単語の一致率に基づいてテキストの類似度を判定することを特徴とする請求項7に記載の情報処理装置。
- 前記テキスト類似度判定手段は、前記第1のテキストと前記第2のテキストとの構成単語の意味ベクトルに基づいてテキストの類似度を判定することを特徴とする請求項7に記載の情報処理装置。
- 対応する単語があるかを判定する対応単語判定手段を更に備え、
前記要求手段で再発話を要求した後の所定数の発話の中から、前記判定手段で再発話が必要と判定された前記第1の発話に含まれる第1の単語と類似する第2の単語が前記第2の発話に含まれると前記対応単語判定手段が判定した場合、前記置換手段は、前記第1の単語を前記第2の単語で置換することを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。 - 対応する単語があるかを判定する対応単語判定手段を更に備え、
前記対応単語判定手段は、ユーザにより明示的に再発話であることが指定された前記第2の発話に対して、前記判定手段で再発話が必要と判定された前記第1の発話に含まれる第1の単語と類似する第2の単語が含まれるか否かの対応単語判定を行うことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。 - 前記対応単語判定手段は、単語の読みを構成する文字の一致率に基づいて、前記第1の単語に対応する前記第2の単語があるかを判定することを特徴とする請求項10または11に記載の情報処理装置。
- 前記対応単語判定手段は、単語の意味ベクトルに基づいて、前記第1の単語に対応する前記第2の単語があるかを判定することを特徴とする請求項10または11に記載の情報処理装置。
- 再発話が必要であると前記判定手段が判定した前記第1の発話に対して、再発話が行われなかった場合、前記置換手段は、前記第1の発話を未修正とすることを特徴とする請求項1から12のいずれか1項に記載の情報処理装置。
- 再発話が必要であると前記判定手段が判定した前記第1の発話に対して、前記置換手段が、未修正とするとした場合、前記第1の発話に基づくテキストを強調表示する議事録生成手段を有することを特徴とする請求項13に記載の情報処理装置。
- 発話された音声データを音声認識する認識工程と、
前記認識工程の結果に基づいて、再発話が必要か否かを判定する判定工程と、
第1の発話について再発話が必要と前記判定工程で判定した場合、第2の発話の再発話を促す要求工程と、
再発話が必要な前記第1の発話を、再発話された前記第2の発話で、置換する置換工程と、を有することを特徴とする情報処理方法。 - 請求項15に記載の情報処理方法をコンピュータにより実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018020600A JP2019138989A (ja) | 2018-02-08 | 2018-02-08 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018020600A JP2019138989A (ja) | 2018-02-08 | 2018-02-08 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019138989A true JP2019138989A (ja) | 2019-08-22 |
Family
ID=67693833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018020600A Pending JP2019138989A (ja) | 2018-02-08 | 2018-02-08 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019138989A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021092713A (ja) * | 2019-12-12 | 2021-06-17 | 三菱電機インフォメーションシステムズ株式会社 | 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム |
CN113779234A (zh) * | 2021-09-09 | 2021-12-10 | 京东方科技集团股份有限公司 | 会议发言人的讲话纪要生成方法、装置、设备及介质 |
-
2018
- 2018-02-08 JP JP2018020600A patent/JP2019138989A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021092713A (ja) * | 2019-12-12 | 2021-06-17 | 三菱電機インフォメーションシステムズ株式会社 | 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム |
CN113779234A (zh) * | 2021-09-09 | 2021-12-10 | 京东方科技集团股份有限公司 | 会议发言人的讲话纪要生成方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10678501B2 (en) | Context based identification of non-relevant verbal communications | |
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
EP2311031B1 (en) | Method and device for converting speech | |
US6775651B1 (en) | Method of transcribing text from computer voice mail | |
RU2349969C2 (ru) | Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения | |
US20110112837A1 (en) | Method and device for converting speech | |
EP1486949A1 (en) | Audio video conversion apparatus and method, and audio video conversion program | |
US20130144619A1 (en) | Enhanced voice conferencing | |
JP2000148182A (ja) | 電話メッセ―ジの転記のために使用される編集システム及び方法 | |
KR20070026452A (ko) | 음성 인터랙티브 메시징을 위한 방법 및 장치 | |
JP2006301223A (ja) | 音声認識システム及び音声認識プログラム | |
JP2004287201A (ja) | 議事録作成装置及び方法、ならびに、コンピュータプログラム | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
JPWO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
WO2020013891A1 (en) | Techniques for providing audio and video effects | |
US11783836B2 (en) | Personal electronic captioning based on a participant user's difficulty in understanding a speaker | |
JP2019138989A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JPH10326176A (ja) | 音声対話制御方法 | |
JP2005004716A (ja) | 異言語間対話処理方法およびその装置、ならびにそのプログラムと記録媒体 | |
JP6596913B2 (ja) | スケジュール作成装置、スケジュール作成方法、プログラム | |
JP2019138988A (ja) | 情報処理システム、情報処理方法、及びプログラム | |
JP2019179081A (ja) | 会議支援装置、会議支援制御方法およびプログラム | |
JP2020052511A (ja) | 要約生成装置、要約生成方法、及びプログラム | |
JP2004151562A (ja) | 音声対話制御方法および音声対話制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20180306 |