JP2006330170A - 記録文書作成支援システム - Google Patents

記録文書作成支援システム Download PDF

Info

Publication number
JP2006330170A
JP2006330170A JP2005151024A JP2005151024A JP2006330170A JP 2006330170 A JP2006330170 A JP 2006330170A JP 2005151024 A JP2005151024 A JP 2005151024A JP 2005151024 A JP2005151024 A JP 2005151024A JP 2006330170 A JP2006330170 A JP 2006330170A
Authority
JP
Japan
Prior art keywords
speech
speaker
recognition
text
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005151024A
Other languages
English (en)
Inventor
Eiji Sawamura
英治 沢村
Kenji Ozeki
健二 大関
Ryoji Kadoi
良治 角井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NHK Engineering System Inc
Original Assignee
NHK Engineering Services Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NHK Engineering Services Inc filed Critical NHK Engineering Services Inc
Priority to JP2005151024A priority Critical patent/JP2006330170A/ja
Publication of JP2006330170A publication Critical patent/JP2006330170A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 記録文書の作成を少ない労力、短時間で行えるように支援する記録文書作成支援システムを提供する。
【解決手段】 特定の分野、例えば裁判の分野に特有の用語等を裁判関連用語データベース25に格納し、裁判関連用語データベース25を参照して高機能音声認識処理部21で音声認識処理を行って認識テキストを作成し、修正処理部35でスピーチ区間検出情報を活用して音声認識対象の音声データと認識テキストとを照合して認識テキストの修正処理を行う。
【選択図】 図1

Description

本発明は、会議等における関係者の発言内容を記録した議事録の作成などを支援する記録文書作成支援システムに関する。
従来、会議関係者の発言内容の記録として議事録作成を行う場合、発言内容を記録した録音テープを再生操作して、再生音声中のスピーチ開始点からテープを再生聴取しつつ、ワープロなどで書起しを行うのが一般的である。
実際には、書起し作業者の書起し速度に合わせるためや内容確認などのため、一区切りのスピーチ区間を対象として録音テープの頭出し、再生操作を繰り返し、書起し作業によってテキスト化が行われる。
したがって、書起し作業は、テープの頭出し、再生といった煩雑なテープ操作と、スピーチの聴取、書起しといった人間の知能に負う負担の多い業務である。
このような書起し作業は、裁判法廷での関係者の発言などを録音し、その録音内容を記録文書化するためにも必要であるが、多大の労力、時間を必要としており、その改善が求められていた。
そこで、会議等の議事録の作成を支援するシステムとして、音声認識手法で関係者の発言内容をテキスト化するとともに、そのテキスト内容と発言内容とを照合確認し、必要な修正を行えるようにしたものがあり、例えば非特許文献1に開示されたものがある。
非特許文献1に開示されたシステムは、複数話者に対し、各話者の音の特徴を事前学習し、各話者にマイクロフォンを設置して各話者の音声を独立に録音する。そして、話者毎に音声認識してテキストに変換し、発言者名を付加して発言時間順に結果を表示し、話者単位かつ発言時間順のテキスト表示及び対応する音声再生系による修正を行うものである。誤認識個所は「クイック修正」機能で修正を行うことにより自動学習を行う。
また、議事録の作成支援を行う他のシステムとして、非特許文献2に開示されたものがある。
http://www.dragonspeech.jp/gijiorku/index.html 「議事録作成サポートシステム」 電子情報通信学会 信学技報 SP2000−85 「会議音声の自動アーカイブ化システム」
しかしながら、上記特許文献1に開示されている議事録作成サポートシステムでは、録音と文字化はシーケンスに処理しており、同時進行ではないため、仕上がりに多くの時間を要していた。また、特定分野に特有の用語などが発言された場合には、その認識精度が低く、修正に手間がかかるという問題があった。
本発明は上記に鑑みてなされたもので、会議等における関係者の発言内容を記録した議事録の作成などを少ない労力、短時間で行えるように支援する記録文書作成支援システムを提供することを目的とする。
上記目的を達成するため、請求項1記載の発明は、話者の音声を収音する収音部と、話者が発言しているスピーチ区間を検出するスピーチ区間処理部と、話者の音声を音声認識処理により文字化して認識テキストを生成する音声認識処理部と、スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、前記音声認識処理部は、話者の音声の特徴を示す話者識別データと、話者の話し方の特徴を示す話者音声データと、話者の発言内容の関連分野に特有の用語とを格納する記録部と、前記話者音声データに基づいて話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする。
請求項2記載の発明は、複数の話者の音声を収音する収音部と、それぞれの話者に対応して設けられ、対応する話者が発言しているスピーチ区間を検出する複数のスピーチ区間処理部と、それぞれの話者に対応して設けられ、対応する話者の音声を音声認識処理により文字化して認識テキストを生成する複数の音声認識処理部と、スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、前記音声認識処理部は、対応する話者の話し方の特徴を示す話者音声データと、対応する話者の発言内容の関連分野に特有の用語とを格納する記録部と、前記話者音声データに基づいて、対応する話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする。
請求項3記載の発明は、前記修正処理部は、スピーチ区間検出情報のタイミングで前記認識テキストと音声認識対象の音声データとを抽出して照合し、修正処理を行うことを特徴とする。
請求項4記載の発明は、前記修正処理部は、前記認識テキストを認識区切単位に分割し、前記認識区切ごとに人間の音声以外の不要成分レベルに基づいて不適性度を判断し、前記不要成分レベルが所定レベル以上の認識区切を他の認識区切と異なる色で表示することを特徴とする。
本発明の記録文書作成支援システムによれば、話者の発言内容の関連分野に特有の用語を記録部に格納し、記録部に格納されている用語を参照して音声認識処理を行って認識テキストを生成し、スピーチ区間検出情報を活用して音声認識対象の音声データと認識テキストとを照合し、認識テキストの修正処理を行うので、議事録の作成などを少ない労力、短時間で行うことができる。
以下、本発明の記録文書作成支援システムを実施するための最良の形態について、図面を参照して説明する。なお、以下の実施の形態では、特定分野での関係者の発言などを記録文書化する場合について説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。図1に示すように、第1の実施の形態の記録文書作成支援システムは、音声を音声信号に変換して出力するマイクロフォン11と、音声信号の補正を行う高指向性集音処理部13と、音声を録音し、これを再生して音声信号を出力する録音・再生部15と、音声信号をA/D変換するA/D変換器16と、音声のスピーチ/ポーズ区間を検出して区間データを出力するスピーチ区間処理部19と、音声認識処理により認識テキストを生成して出力する高機能音声認識処理部21と、認識テキストの修正処理を行う修正処理部35と、認識テキストの確認及び修正を行う話者の音声データを格納する修正話者音声データ記録部37とを有する。
高機能音声認識処理部21は、パーソナルコンピュータ(PC)21dにより構成され、記録部23と、話者の音声を音声認識に適するように改善処理を行う話者適応性改善処理部31と、話者を識別する話者識別処理部33とを有し、記録部23には例えば裁判用語を格納する裁判関連用語データベース25と、話者の音声の特徴を示す話者音声データを格納する話者音声データベース27と、話者の話し方の特徴を示す話者識別データ及び話者IDを格納する話者識別データベース29とが格納されている。また、PC21dにはモニタ21aと、キーボード21bと、マウス21cとが接続されている。
次に、第1の実施の形態の記録文書作成支援システムの動作を説明する。マイクロフォン11は、例えば法廷内の音声を音声信号に変換して高指向性集音処理部13に出力する。
高指向性集音処理部13は、入力された音声信号の雑音低減や適切な自動レベル補正などを行う。発言者の音声の時間的なレベル変動が極端に大きい場合があるため、これを補正するものである。また、発言者は正しく発言していても、法廷内での多重反射や法廷内の各種騒音などにより、録音した発言が音声認識に適さない場合もある。このような場合には、高指向性集音処理部13は、発言席が特定されている場合の指向性集音(方向のみならず距離についても)を行う。
高指向性集音処理部13で補正された音声信号は、録音・再生部15に入力され、録音される。そして、例えば裁判記録文書39を作成する際に再生され、再生された音声信号はA/D変換器16でA/D変換されて音声データが生成され、この音声データがスピーチ区間処理部19と高機能音声認識処理部21とに出力される。
図2(a)は認識対象の音声の波形を示す図、図2(b)は区間データを示す図である。スピーチ区間処理部19は、図2(a)に示す音声に対応する音声データが入力されると、音声データにおけるスピーチとその他の音声の特徴差を活用し、音声パワー値の適当な周波数範囲の抽出とレベル補償など各種の補正処理を行うことによって、ポーズ区間(非スピーチ区間)またはスピーチ区間を簡単かつ精度良く検出する。そして、図2(b)に示すようにスピーチ区間を1、ポーズ区間を0とする区間データを生成し、高機能音声認識処理部21に出力する(特開2004−4343号公報「音声のスピーチ/ポーズ区間検出装置」参照)。
高機能音声認識処理部21は、入力された音声データから高機能音声認識処理により認識テキストを生成する。音声認識処理においては、裁判関連用語データベース25を参照し、話者識別処理部33および話者適応性改善処理部31を使用することによって、話者ラベルをもつより正確な認識テキストの生成を可能とする。
裁判関連用語データベース25は、裁判の分野、その分野に特有の裁判用語の漢字及びその漢字の読みを格納したものである。裁判関連用語データベース25の作成においては、当該裁判の、種別、分野に該当する以前の多くの裁判記録を活用し、出来るだけ多くのデータを収集して適用する。また、時代や世代などにおいて差異がある場合は、当該裁判に近い時代や世代の裁判記録を適用する。
話者識別処理部33は、話者識別データベース29を参照して話者を識別して話者IDを認識テキストに付加する。話者識別データベース29には各話者の音声の特徴を示す声紋等のデータ及び話者IDが格納されている。
話者適応性改善処理部31は、話者音声データベース27を参照して話者ごとの音声認識の適応性の改善処理を行う。話者音声データベース27には、当該裁判において発言する全関係者について、事前にその話者の発言を利用して作成した簡単な音響モデルが格納されている。音声認識上不適切な話者については、音声認識に際し、音響モデルを適宜切り替えて適用する。
修正処理部35には、高機能音声認識処理部21で生成された認識テキストと、音声認識対象の音声データと、スピーチ区間処理部19で生成された区間データとが入力される。認識テキストには一応時間情報が付加されているものとする。
図3は修正処理部35を示す構成図である。図3に示すように、修正処理部35は、音声認識対象の音声の波形を表示する音声波形表示部61と、認識テキストを認識区切ごとに配列する認識テキスト表示部63と、認識区切ごとの話者を表示する話者表示部65と、認識テキスト表示部63及び話者表示部65を移動させるスライドバー66と、音声データに含まれる不要成分のレベルを表示する不要成分レベル表示部67と、編集しようとする認識区切の認識テキストを表示するテキスト編集窓69と、テキストの修正処理を開始する修正ボタン71と、選択した認識テキストに対応する音声を再生する再生ボタン73と、再生を停止する停止ボタン75とを有する。
修正処理部35は、音声認識処理により生成された認識テキストを、認識区切単位に分割するとともに、その認識区切ごとに得られる時間情報に従い配列して認識テキスト表示部63に表示する。また、認識テキストに付加された話者IDにより認識区切ごとに特定された話者名を話者表示部65に表示する。
また、修正処理部35は、音声データから不要成分を抽出し、その不要成分のレベルを不要成分レベル表示部67に表示する。不要成分は、反射音や雑音などの不要ノイズ(ASR)、背景音(BGM)など、音声認識に有害な成分である。
図4は不要成分を含む音声信号の例を示す図である。周波数0.1kHz〜1.5kHzの範囲を人間の音声として検出し、その範囲外の不要ノイズ(ASR)や背景音(BGM)を不要成分として検出する。
そして、不要成分レベルを認識テキストの不適正度として、認識テキスト表示部63に表示した認識テキストの表示色に反映し、認識テキストの信頼の目安とする。例えば図3の斜線で示した認識区切は不要成分レベルが所定レベル以上であるときは、他の認識区切とは違う色で表示する。
高機能音声認識処理部21で生成した認識テキストの確認及び修正について説明する。これらの処理はかなり高速なので、認識テキストの生成にすぐ追従して処理が完了し、各種のデータが表示される。したがって、人間による確認・修正作業が追従できれば、ほぼリアルタイムに行うことができる。実際には必要なデータは保存のうえ表示されているので、作業をしたいテキスト部分をスライドバー66を操作して見つけ、クリックで選択して作業を行う。
認識テキスト表示部63の中で確認したい認識区切をクリックすると、選択された認識区切のテキストがテキスト編集窓69に表示され、さらに、再生ボタン73をクリックすると、その認識区切に付加されている時間情報に従い、対応する音声が再生される。
この音声を聞きながら該当する認識区切のテキストの内容を確認し、テキストに不具合があれば、テキスト編集窓69を利用して修正する。テキストの修正処理は、音声認識処理により行うこともできる。修正ボタン71をクリックすると修正話者用マイクロフォン(図示せず)が接続され、別の音声認識システム(図示せず)で修正が入力できる。修正処理部35は、修正話者音声データ記録部37を参照して音声認識処理により修正用のテキストデータを生成し、このテキストデータを用いてテキスト編集窓69に表示された認識区切のテキストの修正処理を行う。修正話者音声データ記録部37には、修正を行う話者の発言を利用して事前に作成した簡単な音響モデルが格納されている。
また、キーボード操作により修正処理を行うこともできる。修正処理部35は、キーボード操作に応じて入力されたテキストデータを用いてテキスト編集窓69に表示された認識区切のテキストの修正処理を行う。
なお、認識テキストの表示色を活用して、確認・修正作業を効率化することができる。例えば、図3に示す認識テキスト表示部63において、斜線で示した認識区切以外は信頼性が非常に高いとして確認は行わず、信頼性が低い斜線で示した認識区切のみ集中して確認、修正作業を行うことにより効率化することができる。
そして、新たに裁判記録文書39を作成した場合には、その際の修正処理部35における修正記録を活用して、裁判関連用語データベース25のメンテナンスを行う。高機能音声認識処理部21は、修正処理部35の修正記録を格納する修正記録部(図示せず)からメンテナンスのための単語・用語を抽出し、裁判関連用語データベース25を更新する。これにより裁判関連用語データベース25を最新の状態に保つことができ、より正確な裁判記録文書39の作成を可能とする。
ところで、高機能音声認識処理部21から得られる認識テキスト及び認識にともなう時間情報には、低レベル発言などによる不検出、背景音などによる誤検出、誤変換、タイミング精度不十分といった不具合がかなり含まれる場合が多い。
一方、スピーチ区間処理部19は、スピーチ区間をかなり正確なタイミングで検出できるため、その特徴を活用し、発言である可能性の高い区間の開始・終了タイミング及びその区間に対応する認識テキストに関する情報を生成する。
図5はスピーチ区間対応の認識テキスト生成の手順を示す図である。まず、高機能音声認識処理部21で生成された時間情報付き認識テキスト83の時間情報をスピーチ区間処理部19で生成されたスピーチ区間データ81と入れ替え、スピーチ区間対応の認識テキスト85を生成する。そして、スピーチ区間対応の認識テキスト85からスピーチ区間情報付き認識テキスト87を生成する。
この処理によって、確認、修正すべき対象区間及びそのテキスト内容に関し、不検出や誤検出の影響低減、タイミング精度の向上が可能となり、確認、修正作業をより効率的に行うことが可能となる。
具体例として、低レベル発言などで高機能音声認識処理部21が不検出でもスピーチ区間の検出は可能な場合が多く、確認すべき対象区間にリストされる。一方、高機能音声認識処理部21では誤検出であってもスピーチ区間として検出されない場合が多く、確認すべき対象区間にリストされない。また、タイミング精度が向上すると、確認用音声の再生範囲を的確にすることができる。
このように第1の実施の形態の記録文書作成支援システムによれば、特定の分野に特有の用語等を例えば裁判関連用語データベース25に格納し、裁判関連用語データベース25を参照して高機能音声認識処理部21で音声認識処理を行って認識テキストを作成し、修正処理部35でスピーチ区間検出情報を活用して音声認識対象の音声信号と認識テキストとを照合して認識テキストの修正を行うので、裁判記録文書39を少ない労力、短時間で作成することができる。
また、不要成分レベルを認識テキストの不適正度として、認識テキスト表示部63に表示した認識テキストの表示色に反映し、認識テキストの信頼の目安とするので、信頼性が低い認識区切のみ集中して確認、修正作業を行うことができ、裁判記録文書39を少ない労力、短時間で作成することができる。
図6は本発明の第1の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。図1に示す記録文書作成支援システムに対し、高速音声ファイル化処理部17を追加し、A/D変換器16の代わりにA/D変換器18を録音・再生部15と高速音声ファイル化処理部17の間に設け、マイクロフォン11と高指向性集音処理部13の間にA/D変換器12を設けたものである。なお、図6に示した記録文書作成支援システムの構成要素において、図1と同一の構成要素については、同一番号をつけることによりその説明は省略する。
図6に示す記録文書作成支援システムでは、マイクロフォン11で生成された音声信号はA/D変換器12でA/D変換され、高指向性集音処理部13を経て高速音声ファイル化処理部17に入力され、高速音声ファイル化処理された後、スピーチ区間処理部19と高機能音声認識処理部21とに入力される。この場合、音声信号の取込時間の無駄を省くことができる。
また、マイクロフォン11で生成された音声信号は録音・再生部15で録音され、A/D変換器18でA/D変換され、高速音声ファイル化処理部17を経てスピーチ区間処理部19と高機能音声認識処理部21とに入力されることもできる。この場合も高速ファイル化処理により転送時間を短縮することができる。
(第2の実施の形態)
図7は本発明の第2の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。図7に示すように、第2の実施の形態の記録文書作成支援システムは、関係者A〜Eそれぞれに対応して設けられ、それぞれの関係者の音声を音声信号に変換して出力するマイクロフォン41A〜41Eと、マイクロフォン41A〜41Eから出力された音声信号をそれぞれA/D変換するA/D変換器42A〜42Eと、それぞれの関係者の音声を録音し、これを再生して音声データを出力するマルチ録音・再生部43と、関係者A〜Eそれぞれに対応して設けられ、それぞれの関係者の音声のスピーチ/ポーズ区間を検出して区間データを出力するスピーチ区間処理部45A〜45Eと、関係者A〜Eそれぞれに対応して設けられ、音声認識処理により認識テキストを生成して出力する高機能音声認識処理部47A〜47Eと、認識テキストの修正処理を行う修正処理部35と、確認及び修正を行う話者の音声データを格納する修正話者音声データ記録部37とを有する。
高機能音声認識処理部47Aは、パーソナルコンピュータ(PC)47dにより構成され、記録部23と、話者の音声を音声認識に適するように改善処理を行う話者適応性改善処理部31とを有し、記録部23には例えば裁判用語を格納する裁判関連用語データベース25と、話者の音声の特徴を示す話者音声データを格納する話者音声データベース27とが格納されている。また、PC47dにはモニタ47aと、キーボード47bと、マウス47cとが接続されている。高機能音声認識処理部47B〜47Eも高機能音声認識処理部47Aと同様の構成である。
次に、第2の実施の形態の記録文書作成支援システムの動作を説明する。マイクロフォン41A〜41Eは、関係者A〜Eの音声を音声信号に変換してそれぞれA/D変換器42A〜42Eに出力する。音声信号はA/D変換器42A〜42EでA/D変換されて音声データが生成され、この音声データがマルチ録音・再生部43に入力され、録音される。そして、例えば裁判記録文書39を作成する際に音声データが再生され、それぞれ対応するスピーチ区間処理部45A〜45Eと高機能音声認識処理部47A〜47Eとに出力される。
スピーチ区間処理部45A〜45Eはそれぞれ第1の実施の形態で説明したスピーチ区間処理部19と同様の処理を行う。
高機能音声認識処理部47Aは、入力された関係者Aの音声データから高機能音声認識処理により認識テキストを生成する。音声認識処理においては、裁判関連用語データベース25を参照し、話者適応性改善処理部31を使用することによって、より正確な認識テキストの生成を可能とする。裁判関連用語データベース25及び話者適応性改善処理部31は第1の実施の形態で説明したものと同様である。話者音声データベース27には、関係者Aについて、事前にその関係者Aの発言を利用して作成した簡単な音響モデルが格納されている。
高機能音声認識処理部47B〜47Eにはそれぞれ関係者B〜Eの音声データが入力され、高機能音声認識処理部47Aと同様の処理によりそれぞれ認識テキストが生成される。
修正処理部35は、第1の実施の形態と同様に修正話者音声データ記録部37を参照して修正処理を行う。
修正処理部35には、関係者ごとに音声認識処理により作成された認識テキストが入力される。この入力には、音声認識処理に際し得られた時間情報が付加されている。そのため、関係者ごとの認識テキストを全体の認識テキストとして統合するには、その時間情報を活用し時間情報順に統合することとなる。
そして、この全体の認識テキストについて確認・修正作業を行うが、特定の関係者のみの音声認識精度が極端に悪い場合は、当該関係者のみの認識テキストについて集中的に修正作業を行うのが効率的である。ただし、関係者が同時に発言する場合も有り得るため、この場合は時間情報のみに頼ることはできないので、修正処理部35により、修正者の判断により編集する。
第2の実施の形態の記録文書作成支援システムによれば、関係者A〜Eそれぞれに対応してマイクロフォン41A〜41Eとスピーチ区間処理部45A〜45Eと高機能音声認識処理部47A〜47Eとを設けたので、個々の関係者の識別が明確であり、集音環境への適応も的確に行い得る。さらに、音声認識処理においても話者適応をより確実に行うことができる。
図8は本発明の第2の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。図8に示した記録文書作成支援システムの構成要素において、図7と同一の構成要素については、同一番号をつけることによりその説明は省略する。図8において図に示す記録文書作成支援システムと異なる点は、A/D変換器42A〜42EでA/D変換されて生成された音声データがマルチ録音・再生部43ではなくスピーチ区間処理部45A〜45Eに入力される点である。
図8に示す構成は、リアルタイムかつマルチ処理音声認識を基本とする構成である。マルチ録音・再生部43は通常はバックアップに使用するが、録音済のマルチ再生音をマルチ処理音声認識で処理する、オフライン処理も可能である。
本発明の第1の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。 (a)は認識対象の音声の波形を示す図、(b)は区間データを示す図である。 修正処理部を示す構成図である。 不要成分を含む音声信号の例を示す図である。 スピーチ区間対応の認識テキスト生成の手順を示す図である。 本発明の第1の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。 本発明の第2の実施の形態に係る記録文書作成支援システムの構成を示すブロック図である。 本発明の第2の実施の形態に係る記録文書作成支援システムの他の構成を示すブロック図である。
符号の説明
11,41A〜41E マイクロフォン
12,16,18,42A〜42E A/D変換器
13 高指向性集音処理部
15 録音・再生部
19,45A〜45E スピーチ区間処理部
21,47A〜47E 高機能音声認識処理部
23 記録部
25 裁判関連用語データベース
27 話者音声データベース
29 話者識別データベース
31 話者適応性改善処理部
33 話者識別処理部
35 修正処理部
37 修正話者音声データ記録部
43 マルチ録音・再生部
61 音声波形表示部
63 認識テキスト表示部
65 話者表示部
66 スライドバー
67 不要成分レベル表示部
69 テキスト編集窓
71 修正ボタン

Claims (4)

  1. 話者の音声を収音する収音部と、
    話者が発言しているスピーチ区間を検出するスピーチ区間処理部と、
    話者の音声を音声認識処理により文字化して認識テキストを生成する音声認識処理部と、
    スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、
    前記音声認識処理部は、
    話者の音声の特徴を示す話者識別データと、話者の話し方の特徴を示す話者音声データと、話者の発言内容の関連分野に特有の用語とを格納する記録部と、
    前記話者音声データに基づいて話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、
    前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする記録文書作成支援システム。
  2. 複数の話者の音声を収音する収音部と、
    それぞれの話者に対応して設けられ、対応する話者が発言しているスピーチ区間を検出する複数のスピーチ区間処理部と、
    それぞれの話者に対応して設けられ、対応する話者の音声を音声認識処理により文字化して認識テキストを生成する複数の音声認識処理部と、
    スピーチ区間検出情報を活用して音声認識対象の音声データと前記認識テキストとを照合し、音声認識処理又はキーボード操作に応じて入力された修正用のテキストデータを用いて前記認識テキストの修正処理を行う修正処理部とを有し、
    前記音声認識処理部は、
    対応する話者の話し方の特徴を示す話者音声データと、対応する話者の発言内容の関連分野に特有の用語とを格納する記録部と、
    前記話者音声データに基づいて、対応する話者の音声を音声認識処理に適するように改善処理を行う話者適応性改善処理部とを有し、
    前記記録部に格納されている前記用語を参照して音声認識処理を行うことを特徴とする記録文書作成支援システム。
  3. 前記修正処理部は、スピーチ区間検出情報のタイミングで前記認識テキストと音声認識対象の音声データとを抽出して照合し、修正処理を行うことを特徴とする請求項1又は2に記載の記録文書作成支援システム。
  4. 前記修正処理部は、前記認識テキストを認識区切単位に分割し、前記認識区切ごとに人間の音声以外の不要成分レベルに基づいて不適性度を判断し、前記不要成分レベルが所定レベル以上の認識区切を他の認識区切と異なる色で表示することを特徴とする請求項1又は2に記載の記録文書作成支援システム。
JP2005151024A 2005-05-24 2005-05-24 記録文書作成支援システム Pending JP2006330170A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005151024A JP2006330170A (ja) 2005-05-24 2005-05-24 記録文書作成支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005151024A JP2006330170A (ja) 2005-05-24 2005-05-24 記録文書作成支援システム

Publications (1)

Publication Number Publication Date
JP2006330170A true JP2006330170A (ja) 2006-12-07

Family

ID=37551943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005151024A Pending JP2006330170A (ja) 2005-05-24 2005-05-24 記録文書作成支援システム

Country Status (1)

Country Link
JP (1) JP2006330170A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
WO2012001730A1 (ja) * 2010-06-28 2012-01-05 三菱電機株式会社 音声認識装置
JP2016062071A (ja) * 2014-09-22 2016-04-25 株式会社東芝 電子機器、方法およびプログラム
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
JP2018180519A (ja) * 2017-04-18 2018-11-15 日本放送協会 音声認識誤り修正支援装置およびそのプログラム
JP2019197210A (ja) * 2018-05-08 2019-11-14 日本放送協会 音声認識誤り修正支援装置およびそのプログラム
JP2020166021A (ja) * 2019-03-28 2020-10-08 沖電気工業株式会社 情報処理装置、およびプログラム
CN112463104A (zh) * 2017-11-02 2021-03-09 谷歌有限责任公司 具有会议功能的自动助理

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
WO2012001730A1 (ja) * 2010-06-28 2012-01-05 三菱電機株式会社 音声認識装置
CN102959618A (zh) * 2010-06-28 2013-03-06 三菱电机株式会社 声音识别装置
JP5301037B2 (ja) * 2010-06-28 2013-09-25 三菱電機株式会社 音声認識装置
US8990092B2 (en) 2010-06-28 2015-03-24 Mitsubishi Electric Corporation Voice recognition device
JP2016062071A (ja) * 2014-09-22 2016-04-25 株式会社東芝 電子機器、方法およびプログラム
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
CN106448675B (zh) * 2016-10-21 2020-05-01 科大讯飞股份有限公司 识别文本修正方法及系统
JP2018180519A (ja) * 2017-04-18 2018-11-15 日本放送協会 音声認識誤り修正支援装置およびそのプログラム
CN112463104A (zh) * 2017-11-02 2021-03-09 谷歌有限责任公司 具有会议功能的自动助理
JP2019197210A (ja) * 2018-05-08 2019-11-14 日本放送協会 音声認識誤り修正支援装置およびそのプログラム
JP2020166021A (ja) * 2019-03-28 2020-10-08 沖電気工業株式会社 情報処理装置、およびプログラム
JP7163845B2 (ja) 2019-03-28 2022-11-01 沖電気工業株式会社 情報処理装置、およびプログラム

Similar Documents

Publication Publication Date Title
US11699456B2 (en) Automated transcript generation from multi-channel audio
JP6463825B2 (ja) 多重話者音声認識修正システム
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US7472065B2 (en) Generating paralinguistic phenomena via markup in text-to-speech synthesis
JP3873131B2 (ja) 電話メッセージの転記のために使用される編集システム及び方法
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
US8423363B2 (en) Identifying keyword occurrences in audio data
US7881930B2 (en) ASR-aided transcription with segmented feedback training
US20090037171A1 (en) Real-time voice transcription system
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
JP2006330170A (ja) 記録文書作成支援システム
US8315866B2 (en) Generating representations of group interactions
US20080255835A1 (en) User directed adaptation of spoken language grammer
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2006301223A (ja) 音声認識システム及び音声認識プログラム
WO2010024426A1 (ja) 録音装置
US20110093263A1 (en) Automated Video Captioning
JP6716300B2 (ja) 議事録生成装置、及び議事録生成プログラム
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
WO2003102920A1 (en) A method for locating an audio segment within an audio file
JP3859612B2 (ja) 会議録音・書き起こしシステム
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
JP5301037B2 (ja) 音声認識装置
JP2011199698A (ja) Av機器
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム