JP2006330170A

JP2006330170A - 記録文書作成支援システム

Info

Publication number: JP2006330170A
Application number: JP2005151024A
Authority: JP
Inventors: Eiji Sawamura; 英治沢村; Kenji Ozeki; 健二大関; Ryoji Kadoi; 良治角井
Original assignee: NHK Engineering Services Inc
Current assignee: NHK Engineering System Inc
Priority date: 2005-05-24
Filing date: 2005-05-24
Publication date: 2006-12-07

Abstract

【課題】記録文書の作成を少ない労力、短時間で行えるように支援する記録文書作成支援システムを提供する。
【解決手段】特定の分野、例えば裁判の分野に特有の用語等を裁判関連用語データベース２５に格納し、裁判関連用語データベース２５を参照して高機能音声認識処理部２１で音声認識処理を行って認識テキストを作成し、修正処理部３５でスピーチ区間検出情報を活用して音声認識対象の音声データと認識テキストとを照合して認識テキストの修正処理を行う。
【選択図】図１

Description

本発明は、会議等における関係者の発言内容を記録した議事録の作成などを支援する記録文書作成支援システムに関する。

従来、会議関係者の発言内容の記録として議事録作成を行う場合、発言内容を記録した録音テープを再生操作して、再生音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロなどで書起しを行うのが一般的である。

実際には、書起し作業者の書起し速度に合わせるためや内容確認などのため、一区切りのスピーチ区間を対象として録音テープの頭出し、再生操作を繰り返し、書起し作業によってテキスト化が行われる。

したがって、書起し作業は、テープの頭出し、再生といった煩雑なテープ操作と、スピーチの聴取、書起しといった人間の知能に負う負担の多い業務である。

このような書起し作業は、裁判法廷での関係者の発言などを録音し、その録音内容を記録文書化するためにも必要であるが、多大の労力、時間を必要としており、その改善が求められていた。

そこで、会議等の議事録の作成を支援するシステムとして、音声認識手法で関係者の発言内容をテキスト化するとともに、そのテキスト内容と発言内容とを照合確認し、必要な修正を行えるようにしたものがあり、例えば非特許文献１に開示されたものがある。

非特許文献１に開示されたシステムは、複数話者に対し、各話者の音の特徴を事前学習し、各話者にマイクロフォンを設置して各話者の音声を独立に録音する。そして、話者毎に音声認識してテキストに変換し、発言者名を付加して発言時間順に結果を表示し、話者単位かつ発言時間順のテキスト表示及び対応する音声再生系による修正を行うものである。誤認識個所は「クイック修正」機能で修正を行うことにより自動学習を行う。

また、議事録の作成支援を行う他のシステムとして、非特許文献２に開示されたものがある。
http://www.dragonspeech.jp/gijiorku/index.html 「議事録作成サポートシステム」電子情報通信学会信学技報ＳＰ２０００−８５「会議音声の自動アーカイブ化システム」

しかしながら、上記特許文献１に開示されている議事録作成サポートシステムでは、録音と文字化はシーケンスに処理しており、同時進行ではないため、仕上がりに多くの時間を要していた。また、特定分野に特有の用語などが発言された場合には、その認識精度が低く、修正に手間がかかるという問題があった。

本発明は上記に鑑みてなされたもので、会議等における関係者の発言内容を記録した議事録の作成などを少ない労力、短時間で行えるように支援する記録文書作成支援システムを提供することを目的とする。

上記目的を達成するため、請求項１記載の発明は、話者の音声を収音する収音部と、話者が発言しているスピーチ区間を検出するスピーチ区間処理部と、話者の音声を音声認識処理により文字化して認識テキストを生成する音声認識処理部と、スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、前記音声認識処理部は、話者の音声の特徴を示す話者識別データと、話者の話し方の特徴を示す話者音声データと、話者の発言内容の関連分野に特有の用語とを格納する記録部と、前記話者音声データに基づいて話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする。

請求項２記載の発明は、複数の話者の音声を収音する収音部と、それぞれの話者に対応して設けられ、対応する話者が発言しているスピーチ区間を検出する複数のスピーチ区間処理部と、それぞれの話者に対応して設けられ、対応する話者の音声を音声認識処理により文字化して認識テキストを生成する複数の音声認識処理部と、スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、前記音声認識処理部は、対応する話者の話し方の特徴を示す話者音声データと、対応する話者の発言内容の関連分野に特有の用語とを格納する記録部と、前記話者音声データに基づいて、対応する話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする。

請求項３記載の発明は、前記修正処理部は、スピーチ区間検出情報のタイミングで前記認識テキストと音声認識対象の音声データとを抽出して照合し、修正処理を行うことを特徴とする。

請求項４記載の発明は、前記修正処理部は、前記認識テキストを認識区切単位に分割し、前記認識区切ごとに人間の音声以外の不要成分レベルに基づいて不適性度を判断し、前記不要成分レベルが所定レベル以上の認識区切を他の認識区切と異なる色で表示することを特徴とする。

本発明の記録文書作成支援システムによれば、話者の発言内容の関連分野に特有の用語を記録部に格納し、記録部に格納されている用語を参照して音声認識処理を行って認識テキストを生成し、スピーチ区間検出情報を活用して音声認識対象の音声データと認識テキストとを照合し、認識テキストの修正処理を行うので、議事録の作成などを少ない労力、短時間で行うことができる。

以下、本発明の記録文書作成支援システムを実施するための最良の形態について、図面を参照して説明する。なお、以下の実施の形態では、特定分野での関係者の発言などを記録文書化する場合について説明する。

（第１の実施の形態）
図１は本発明の第１の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。図１に示すように、第１の実施の形態の記録文書作成支援システムは、音声を音声信号に変換して出力するマイクロフォン１１と、音声信号の補正を行う高指向性集音処理部１３と、音声を録音し、これを再生して音声信号を出力する録音・再生部１５と、音声信号をＡ／Ｄ変換するＡ／Ｄ変換器１６と、音声のスピーチ／ポーズ区間を検出して区間データを出力するスピーチ区間処理部１９と、音声認識処理により認識テキストを生成して出力する高機能音声認識処理部２１と、認識テキストの修正処理を行う修正処理部３５と、認識テキストの確認及び修正を行う話者の音声データを格納する修正話者音声データ記録部３７とを有する。

高機能音声認識処理部２１は、パーソナルコンピュータ（ＰＣ）２１ｄにより構成され、記録部２３と、話者の音声を音声認識に適するように改善処理を行う話者適応性改善処理部３１と、話者を識別する話者識別処理部３３とを有し、記録部２３には例えば裁判用語を格納する裁判関連用語データベース２５と、話者の音声の特徴を示す話者音声データを格納する話者音声データベース２７と、話者の話し方の特徴を示す話者識別データ及び話者ＩＤを格納する話者識別データベース２９とが格納されている。また、ＰＣ２１ｄにはモニタ２１ａと、キーボード２１ｂと、マウス２１ｃとが接続されている。

次に、第１の実施の形態の記録文書作成支援システムの動作を説明する。マイクロフォン１１は、例えば法廷内の音声を音声信号に変換して高指向性集音処理部１３に出力する。

高指向性集音処理部１３は、入力された音声信号の雑音低減や適切な自動レベル補正などを行う。発言者の音声の時間的なレベル変動が極端に大きい場合があるため、これを補正するものである。また、発言者は正しく発言していても、法廷内での多重反射や法廷内の各種騒音などにより、録音した発言が音声認識に適さない場合もある。このような場合には、高指向性集音処理部１３は、発言席が特定されている場合の指向性集音（方向のみならず距離についても）を行う。

高指向性集音処理部１３で補正された音声信号は、録音・再生部１５に入力され、録音される。そして、例えば裁判記録文書３９を作成する際に再生され、再生された音声信号はＡ／Ｄ変換器１６でＡ／Ｄ変換されて音声データが生成され、この音声データがスピーチ区間処理部１９と高機能音声認識処理部２１とに出力される。

図２（ａ）は認識対象の音声の波形を示す図、図２（ｂ）は区間データを示す図である。スピーチ区間処理部１９は、図２（ａ）に示す音声に対応する音声データが入力されると、音声データにおけるスピーチとその他の音声の特徴差を活用し、音声パワー値の適当な周波数範囲の抽出とレベル補償など各種の補正処理を行うことによって、ポーズ区間（非スピーチ区間）またはスピーチ区間を簡単かつ精度良く検出する。そして、図２（ｂ）に示すようにスピーチ区間を１、ポーズ区間を０とする区間データを生成し、高機能音声認識処理部２１に出力する（特開２００４−４３４３号公報「音声のスピーチ／ポーズ区間検出装置」参照）。

高機能音声認識処理部２１は、入力された音声データから高機能音声認識処理により認識テキストを生成する。音声認識処理においては、裁判関連用語データベース２５を参照し、話者識別処理部３３および話者適応性改善処理部３１を使用することによって、話者ラベルをもつより正確な認識テキストの生成を可能とする。

裁判関連用語データベース２５は、裁判の分野、その分野に特有の裁判用語の漢字及びその漢字の読みを格納したものである。裁判関連用語データベース２５の作成においては、当該裁判の、種別、分野に該当する以前の多くの裁判記録を活用し、出来るだけ多くのデータを収集して適用する。また、時代や世代などにおいて差異がある場合は、当該裁判に近い時代や世代の裁判記録を適用する。

話者識別処理部３３は、話者識別データベース２９を参照して話者を識別して話者ＩＤを認識テキストに付加する。話者識別データベース２９には各話者の音声の特徴を示す声紋等のデータ及び話者ＩＤが格納されている。

話者適応性改善処理部３１は、話者音声データベース２７を参照して話者ごとの音声認識の適応性の改善処理を行う。話者音声データベース２７には、当該裁判において発言する全関係者について、事前にその話者の発言を利用して作成した簡単な音響モデルが格納されている。音声認識上不適切な話者については、音声認識に際し、音響モデルを適宜切り替えて適用する。

修正処理部３５には、高機能音声認識処理部２１で生成された認識テキストと、音声認識対象の音声データと、スピーチ区間処理部１９で生成された区間データとが入力される。認識テキストには一応時間情報が付加されているものとする。

図３は修正処理部３５を示す構成図である。図３に示すように、修正処理部３５は、音声認識対象の音声の波形を表示する音声波形表示部６１と、認識テキストを認識区切ごとに配列する認識テキスト表示部６３と、認識区切ごとの話者を表示する話者表示部６５と、認識テキスト表示部６３及び話者表示部６５を移動させるスライドバー６６と、音声データに含まれる不要成分のレベルを表示する不要成分レベル表示部６７と、編集しようとする認識区切の認識テキストを表示するテキスト編集窓６９と、テキストの修正処理を開始する修正ボタン７１と、選択した認識テキストに対応する音声を再生する再生ボタン７３と、再生を停止する停止ボタン７５とを有する。

修正処理部３５は、音声認識処理により生成された認識テキストを、認識区切単位に分割するとともに、その認識区切ごとに得られる時間情報に従い配列して認識テキスト表示部６３に表示する。また、認識テキストに付加された話者ＩＤにより認識区切ごとに特定された話者名を話者表示部６５に表示する。

また、修正処理部３５は、音声データから不要成分を抽出し、その不要成分のレベルを不要成分レベル表示部６７に表示する。不要成分は、反射音や雑音などの不要ノイズ（ＡＳＲ）、背景音（ＢＧＭ）など、音声認識に有害な成分である。

図４は不要成分を含む音声信号の例を示す図である。周波数０．１ｋＨｚ〜１．５ｋＨｚの範囲を人間の音声として検出し、その範囲外の不要ノイズ（ＡＳＲ）や背景音（ＢＧＭ）を不要成分として検出する。

そして、不要成分レベルを認識テキストの不適正度として、認識テキスト表示部６３に表示した認識テキストの表示色に反映し、認識テキストの信頼の目安とする。例えば図３の斜線で示した認識区切は不要成分レベルが所定レベル以上であるときは、他の認識区切とは違う色で表示する。

高機能音声認識処理部２１で生成した認識テキストの確認及び修正について説明する。これらの処理はかなり高速なので、認識テキストの生成にすぐ追従して処理が完了し、各種のデータが表示される。したがって、人間による確認・修正作業が追従できれば、ほぼリアルタイムに行うことができる。実際には必要なデータは保存のうえ表示されているので、作業をしたいテキスト部分をスライドバー６６を操作して見つけ、クリックで選択して作業を行う。

認識テキスト表示部６３の中で確認したい認識区切をクリックすると、選択された認識区切のテキストがテキスト編集窓６９に表示され、さらに、再生ボタン７３をクリックすると、その認識区切に付加されている時間情報に従い、対応する音声が再生される。

この音声を聞きながら該当する認識区切のテキストの内容を確認し、テキストに不具合があれば、テキスト編集窓６９を利用して修正する。テキストの修正処理は、音声認識処理により行うこともできる。修正ボタン７１をクリックすると修正話者用マイクロフォン（図示せず）が接続され、別の音声認識システム（図示せず）で修正が入力できる。修正処理部３５は、修正話者音声データ記録部３７を参照して音声認識処理により修正用のテキストデータを生成し、このテキストデータを用いてテキスト編集窓６９に表示された認識区切のテキストの修正処理を行う。修正話者音声データ記録部３７には、修正を行う話者の発言を利用して事前に作成した簡単な音響モデルが格納されている。

また、キーボード操作により修正処理を行うこともできる。修正処理部３５は、キーボード操作に応じて入力されたテキストデータを用いてテキスト編集窓６９に表示された認識区切のテキストの修正処理を行う。

なお、認識テキストの表示色を活用して、確認・修正作業を効率化することができる。例えば、図３に示す認識テキスト表示部６３において、斜線で示した認識区切以外は信頼性が非常に高いとして確認は行わず、信頼性が低い斜線で示した認識区切のみ集中して確認、修正作業を行うことにより効率化することができる。

そして、新たに裁判記録文書３９を作成した場合には、その際の修正処理部３５における修正記録を活用して、裁判関連用語データベース２５のメンテナンスを行う。高機能音声認識処理部２１は、修正処理部３５の修正記録を格納する修正記録部（図示せず）からメンテナンスのための単語・用語を抽出し、裁判関連用語データベース２５を更新する。これにより裁判関連用語データベース２５を最新の状態に保つことができ、より正確な裁判記録文書３９の作成を可能とする。

ところで、高機能音声認識処理部２１から得られる認識テキスト及び認識にともなう時間情報には、低レベル発言などによる不検出、背景音などによる誤検出、誤変換、タイミング精度不十分といった不具合がかなり含まれる場合が多い。

一方、スピーチ区間処理部１９は、スピーチ区間をかなり正確なタイミングで検出できるため、その特徴を活用し、発言である可能性の高い区間の開始・終了タイミング及びその区間に対応する認識テキストに関する情報を生成する。

図５はスピーチ区間対応の認識テキスト生成の手順を示す図である。まず、高機能音声認識処理部２１で生成された時間情報付き認識テキスト８３の時間情報をスピーチ区間処理部１９で生成されたスピーチ区間データ８１と入れ替え、スピーチ区間対応の認識テキスト８５を生成する。そして、スピーチ区間対応の認識テキスト８５からスピーチ区間情報付き認識テキスト８７を生成する。

この処理によって、確認、修正すべき対象区間及びそのテキスト内容に関し、不検出や誤検出の影響低減、タイミング精度の向上が可能となり、確認、修正作業をより効率的に行うことが可能となる。

具体例として、低レベル発言などで高機能音声認識処理部２１が不検出でもスピーチ区間の検出は可能な場合が多く、確認すべき対象区間にリストされる。一方、高機能音声認識処理部２１では誤検出であってもスピーチ区間として検出されない場合が多く、確認すべき対象区間にリストされない。また、タイミング精度が向上すると、確認用音声の再生範囲を的確にすることができる。

このように第１の実施の形態の記録文書作成支援システムによれば、特定の分野に特有の用語等を例えば裁判関連用語データベース２５に格納し、裁判関連用語データベース２５を参照して高機能音声認識処理部２１で音声認識処理を行って認識テキストを作成し、修正処理部３５でスピーチ区間検出情報を活用して音声認識対象の音声信号と認識テキストとを照合して認識テキストの修正を行うので、裁判記録文書３９を少ない労力、短時間で作成することができる。

また、不要成分レベルを認識テキストの不適正度として、認識テキスト表示部６３に表示した認識テキストの表示色に反映し、認識テキストの信頼の目安とするので、信頼性が低い認識区切のみ集中して確認、修正作業を行うことができ、裁判記録文書３９を少ない労力、短時間で作成することができる。

図６は本発明の第１の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。図１に示す記録文書作成支援システムに対し、高速音声ファイル化処理部１７を追加し、Ａ／Ｄ変換器１６の代わりにＡ／Ｄ変換器１８を録音・再生部１５と高速音声ファイル化処理部１７の間に設け、マイクロフォン１１と高指向性集音処理部１３の間にＡ／Ｄ変換器１２を設けたものである。なお、図６に示した記録文書作成支援システムの構成要素において、図１と同一の構成要素については、同一番号をつけることによりその説明は省略する。

図６に示す記録文書作成支援システムでは、マイクロフォン１１で生成された音声信号はＡ／Ｄ変換器１２でＡ／Ｄ変換され、高指向性集音処理部１３を経て高速音声ファイル化処理部１７に入力され、高速音声ファイル化処理された後、スピーチ区間処理部１９と高機能音声認識処理部２１とに入力される。この場合、音声信号の取込時間の無駄を省くことができる。

また、マイクロフォン１１で生成された音声信号は録音・再生部１５で録音され、Ａ／Ｄ変換器１８でＡ／Ｄ変換され、高速音声ファイル化処理部１７を経てスピーチ区間処理部１９と高機能音声認識処理部２１とに入力されることもできる。この場合も高速ファイル化処理により転送時間を短縮することができる。

（第２の実施の形態）
図７は本発明の第２の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。図７に示すように、第２の実施の形態の記録文書作成支援システムは、関係者Ａ〜Ｅそれぞれに対応して設けられ、それぞれの関係者の音声を音声信号に変換して出力するマイクロフォン４１Ａ〜４１Ｅと、マイクロフォン４１Ａ〜４１Ｅから出力された音声信号をそれぞれＡ／Ｄ変換するＡ／Ｄ変換器４２Ａ〜４２Ｅと、それぞれの関係者の音声を録音し、これを再生して音声データを出力するマルチ録音・再生部４３と、関係者Ａ〜Ｅそれぞれに対応して設けられ、それぞれの関係者の音声のスピーチ／ポーズ区間を検出して区間データを出力するスピーチ区間処理部４５Ａ〜４５Ｅと、関係者Ａ〜Ｅそれぞれに対応して設けられ、音声認識処理により認識テキストを生成して出力する高機能音声認識処理部４７Ａ〜４７Ｅと、認識テキストの修正処理を行う修正処理部３５と、確認及び修正を行う話者の音声データを格納する修正話者音声データ記録部３７とを有する。

高機能音声認識処理部４７Ａは、パーソナルコンピュータ（ＰＣ）４７ｄにより構成され、記録部２３と、話者の音声を音声認識に適するように改善処理を行う話者適応性改善処理部３１とを有し、記録部２３には例えば裁判用語を格納する裁判関連用語データベース２５と、話者の音声の特徴を示す話者音声データを格納する話者音声データベース２７とが格納されている。また、ＰＣ４７ｄにはモニタ４７ａと、キーボード４７ｂと、マウス４７ｃとが接続されている。高機能音声認識処理部４７Ｂ〜４７Ｅも高機能音声認識処理部４７Ａと同様の構成である。

次に、第２の実施の形態の記録文書作成支援システムの動作を説明する。マイクロフォン４１Ａ〜４１Ｅは、関係者Ａ〜Ｅの音声を音声信号に変換してそれぞれＡ／Ｄ変換器４２Ａ〜４２Ｅに出力する。音声信号はＡ／Ｄ変換器４２Ａ〜４２ＥでＡ／Ｄ変換されて音声データが生成され、この音声データがマルチ録音・再生部４３に入力され、録音される。そして、例えば裁判記録文書３９を作成する際に音声データが再生され、それぞれ対応するスピーチ区間処理部４５Ａ〜４５Ｅと高機能音声認識処理部４７Ａ〜４７Ｅとに出力される。

スピーチ区間処理部４５Ａ〜４５Ｅはそれぞれ第１の実施の形態で説明したスピーチ区間処理部１９と同様の処理を行う。

高機能音声認識処理部４７Ａは、入力された関係者Ａの音声データから高機能音声認識処理により認識テキストを生成する。音声認識処理においては、裁判関連用語データベース２５を参照し、話者適応性改善処理部３１を使用することによって、より正確な認識テキストの生成を可能とする。裁判関連用語データベース２５及び話者適応性改善処理部３１は第１の実施の形態で説明したものと同様である。話者音声データベース２７には、関係者Ａについて、事前にその関係者Ａの発言を利用して作成した簡単な音響モデルが格納されている。

高機能音声認識処理部４７Ｂ〜４７Ｅにはそれぞれ関係者Ｂ〜Ｅの音声データが入力され、高機能音声認識処理部４７Ａと同様の処理によりそれぞれ認識テキストが生成される。

修正処理部３５は、第１の実施の形態と同様に修正話者音声データ記録部３７を参照して修正処理を行う。

修正処理部３５には、関係者ごとに音声認識処理により作成された認識テキストが入力される。この入力には、音声認識処理に際し得られた時間情報が付加されている。そのため、関係者ごとの認識テキストを全体の認識テキストとして統合するには、その時間情報を活用し時間情報順に統合することとなる。

そして、この全体の認識テキストについて確認・修正作業を行うが、特定の関係者のみの音声認識精度が極端に悪い場合は、当該関係者のみの認識テキストについて集中的に修正作業を行うのが効率的である。ただし、関係者が同時に発言する場合も有り得るため、この場合は時間情報のみに頼ることはできないので、修正処理部３５により、修正者の判断により編集する。

第２の実施の形態の記録文書作成支援システムによれば、関係者Ａ〜Ｅそれぞれに対応してマイクロフォン４１Ａ〜４１Ｅとスピーチ区間処理部４５Ａ〜４５Ｅと高機能音声認識処理部４７Ａ〜４７Ｅとを設けたので、個々の関係者の識別が明確であり、集音環境への適応も的確に行い得る。さらに、音声認識処理においても話者適応をより確実に行うことができる。

図８は本発明の第２の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。図８に示した記録文書作成支援システムの構成要素において、図７と同一の構成要素については、同一番号をつけることによりその説明は省略する。図８において図に示す記録文書作成支援システムと異なる点は、Ａ／Ｄ変換器４２Ａ〜４２ＥでＡ／Ｄ変換されて生成された音声データがマルチ録音・再生部４３ではなくスピーチ区間処理部４５Ａ〜４５Ｅに入力される点である。

図８に示す構成は、リアルタイムかつマルチ処理音声認識を基本とする構成である。マルチ録音・再生部４３は通常はバックアップに使用するが、録音済のマルチ再生音をマルチ処理音声認識で処理する、オフライン処理も可能である。

本発明の第１の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。（ａ）は認識対象の音声の波形を示す図、（ｂ）は区間データを示す図である。修正処理部を示す構成図である。不要成分を含む音声信号の例を示す図である。スピーチ区間対応の認識テキスト生成の手順を示す図である。本発明の第１の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。本発明の第２の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。本発明の第２の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。

符号の説明

１１，４１Ａ〜４１Ｅマイクロフォン
１２，１６，１８，４２Ａ〜４２ＥＡ／Ｄ変換器
１３高指向性集音処理部
１５録音・再生部
１９，４５Ａ〜４５Ｅスピーチ区間処理部
２１，４７Ａ〜４７Ｅ高機能音声認識処理部
２３記録部
２５裁判関連用語データベース
２７話者音声データベース
２９話者識別データベース
３１話者適応性改善処理部
３３話者識別処理部
３５修正処理部
３７修正話者音声データ記録部
４３マルチ録音・再生部
６１音声波形表示部
６３認識テキスト表示部
６５話者表示部
６６スライドバー
６７不要成分レベル表示部
６９テキスト編集窓
７１修正ボタン

Claims

話者の音声を収音する収音部と、
話者が発言しているスピーチ区間を検出するスピーチ区間処理部と、
話者の音声を音声認識処理により文字化して認識テキストを生成する音声認識処理部と、
スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、
前記音声認識処理部は、
話者の音声の特徴を示す話者識別データと、話者の話し方の特徴を示す話者音声データと、話者の発言内容の関連分野に特有の用語とを格納する記録部と、
前記話者音声データに基づいて話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、
前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする記録文書作成支援システム。
複数の話者の音声を収音する収音部と、
それぞれの話者に対応して設けられ、対応する話者が発言しているスピーチ区間を検出する複数のスピーチ区間処理部と、
それぞれの話者に対応して設けられ、対応する話者の音声を音声認識処理により文字化して認識テキストを生成する複数の音声認識処理部と、
スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、
前記音声認識処理部は、
対応する話者の話し方の特徴を示す話者音声データと、対応する話者の発言内容の関連分野に特有の用語とを格納する記録部と、
前記話者音声データに基づいて、対応する話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、
前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする記録文書作成支援システム。
前記修正処理部は、スピーチ区間検出情報のタイミングで前記認識テキストと音声認識対象の音声データとを抽出して照合し、修正処理を行うことを特徴とする請求項１又は２に記載の記録文書作成支援システム。
前記修正処理部は、前記認識テキストを認識区切単位に分割し、前記認識区切ごとに人間の音声以外の不要成分レベルに基づいて不適性度を判断し、前記不要成分レベルが所定レベル以上の認識区切を他の認識区切と異なる色で表示することを特徴とする請求項１又は２に記載の記録文書作成支援システム。