JP2006301223A - 音声認識システム及び音声認識プログラム - Google Patents

音声認識システム及び音声認識プログラム Download PDF

Info

Publication number
JP2006301223A
JP2006301223A JP2005121858A JP2005121858A JP2006301223A JP 2006301223 A JP2006301223 A JP 2006301223A JP 2005121858 A JP2005121858 A JP 2005121858A JP 2005121858 A JP2005121858 A JP 2005121858A JP 2006301223 A JP2006301223 A JP 2006301223A
Authority
JP
Japan
Prior art keywords
speech
voice
data
unit
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005121858A
Other languages
English (en)
Inventor
Toshiyuki Suzuki
利之 鈴木
Atsushi Mishima
淳 三島
Yumiko Hasunuma
優美子 蓮沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ASCII SOLUTIONS Inc
Original Assignee
ASCII SOLUTIONS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ASCII SOLUTIONS Inc filed Critical ASCII SOLUTIONS Inc
Priority to JP2005121858A priority Critical patent/JP2006301223A/ja
Publication of JP2006301223A publication Critical patent/JP2006301223A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】発言の時間的重複が生じる可能性のある複数話者による同時録音にも対応可能な音声認識システムを提供する。
【解決手段】マイクロフォン1a〜1cを話者毎に個別に設け、それぞれを異なるUSBポート16a〜16cに接続する。マイクロフォン1a〜1cより入力された音声は、話者を特定する話者情報と共に、各話者別にWAVE形式の音声データとして音声データ保存部31に保存される。音声データは、音声データ分割部32により、無音部分にて発言単位に分割される。各分割データには、発言ファイル作成部33にて発言開始時刻を含む時間情報が付加されて発言ファイルが作成され、発言ファイル保存部34に保存される。発言ファイルは、発言ファイル送出部35から記号データ付加部22に送られ記号データが付加された後、音声認識エンジン23に送出され音声データの文字化が実行される。
【選択図】図3

Description

本発明は、音声を文字化する音声認識システム及び音声認識プログラムに関し、特に、複数話者による会議等における発言内容を正確に文字化し得る音声認識システム及び音声認識プログラムに関する。
近年、音声認識技術の発展に伴い、会議や講演等における話者の音声を、米国スキャンソフト社製の「ドラゴンスピーチ」(商品名)等のような音声認識エンジンを用いて文字データ化し、議事録や講演記録などを作成するシステムが実用化されている。例えば、特許文献2には、会議出席者の音声情報を音声信号化し、それを音声信号変換プログラムによって文字データに変換して議事録を作成する会議支援装置が示されている。そこでは、各発言者の音声信号は、音声入力部(マイクロフォン等)に予め付加されたIDに基づいて識別され、音声信号には発言者コードが付加される。音声信号から変換された文字データは、この発言者コードを用いて議事録化され、作成された議事録は、画面にリアルタイムに表示される一方、通信回線を介して特定の外部端末にも送信される。
特開2004-228737号公報 特開2004-32229号公報 特開2002-101205号公報 特開平9-69884号公報 特開平8-88843号公報
ところが、このような音声認識システムで使用される音声認識エンジン(音声信号変換プログラム)は、複数話者の音声を区別して認識するような機能は備えていない。このため、複数話者の音声を同時録音した場合、複数人の発言が重複すると、各人の音声が区別できず発言内容を正確に文字化することができない。従って、複数話者が同時に発言することが多い会議のような場面では、そこでの音声をそのまま音声認識エンジンに渡しても、それを正確に文字化できず、全く意味不明で支離滅裂な変換内容となってしまうという問題があった。
この場合、音声が輻輳しなければ、発言者が異なっても比較的正確に音声を文字化できるエンジンは開発されており、かかるエンジンでは、複数話者が交互に話すなどして、会話の錯綜を意識的に回避すれば誤認識は防止できる。しかしながら、実際の会議ではそのような配慮は煩雑であり、会議進行の妨げとなるおそれもあり実用的ではない。一方、特許文献2では、音声信号に発言者コードを付加して話者を特定し、それを変換プログラムにて文字データ化する旨述べられているが、複数人の同時発言をどのように取り扱うかについての言及はなく、議事録作成の手順も明確ではない。
本発明の目的は、発言が時間的に重複する可能性がある複数話者による同時録音にも対応可能な音声認識システムを提供することにある。
本発明の音声認識システムは、音声入力手段より入力された音声を、話者を特定する話者情報と共に、所定形式の音声データとして保存する音声データ保存部と、前記音声データを所定条件下にて分割する音声データ分割部と、分割された前記音声データに所定の時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成部と、前記発言ファイルを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする。
本発明にあっては、音声入力手段を用いて取得した音声データを発言単位で分割する。そして、発言単位に分割された個々のファイルを音声認識エンジンに送出し、音声データの文字化を行う。これにより、複数話者の発言が錯綜しても、音声認識エンジン上に複数人の音声データが流れるのを防止でき、複数人の音声が混じり合うことによる誤変換や変換不能を回避し、正確な音声認識による文字変換が可能となる。
前記音声認識システムにおいて、前記音声データ分割部は、前記音声データにおいて所定音量以下の状態が所定時間以上継続した場合に前記音声データを分割するようにしても良い。また、前記発言ファイル送出部は、前記発言ファイルを前記話者別に前記音声認識エンジンに対し送出するようにしても良い。さらに、前記時間情報が、前記話者の発言開始時刻を含むものであっても良い。
前記音声認識システムにおいて、前記音声入力手段が接続される音声入力部をさらに設け、前記音声入力手段を話者毎に個別に設けると共に、各前記音声入力手段をそれぞれ前記音声入力部の異なるインターフェース端子に接続するようにしても良い。また、前記音声認識システムに、前記音声認識エンジンによって文字化された各発言の文字データが格納された発言文字ファイルを、前記時間情報に基づいて、時間経過に沿って配列する発言文字ファイルソート部をさらに設けても良い。加えて、前記音声認識システムに、前記発言ファイル中の音声データを音声信号として出力する発言音声出力部をさらに設けても良い。
一方、前記音声認識システムに、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を設け、前記発言表示手段の表示中に、前記文字データと対応した発言の音声信号を前記発言音声出力部から出力させる音声出力再生表示を設けても良い。また、前記音声認識システムに、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を設けると共に、前記発言表示手段には、前記各発言の文字データを時間経過に沿って表示する時系列表示部と、前記時系列表示部中の各発言を抽出表示し、該発言内容を任意に修正可能な発言修正部を表示可能に構成しても良い。
また、本発明の他の音声認識システムは、音声入力手段より入力された音声を所定形式の音声データとして保存する音声データ保存部と、前記音声データを所定条件下にて分割する音声データ分割部と、分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加部と、前記記号が付加された音声データを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする。
本発明の音声認識システムにあっては、分割された音声データの先頭に所定の記号の音声データを付加した状態で当該音声データを音声認識エンジンに送出するので、音声データの発言先頭部分が明確となり、例えば、発言の前後関係を参照して音声データの文字化を行う音声認識エンジンなどにおける認識精度の向上が図られる。
前記音声認識システムにおいて、前記記号付加部により、分割された前記音声データの先頭に、例えば、読点(。)の音声データ(「まる」)のように、通常、文章の最後に配される記号の音声データを付加しても良い。また、前記音声認識システムに、前記音声認識エンジンによって文字化された前記音声データの文字データから、前記記号に相当する文字データを削除する記号削除部を設けても良い。
本発明の音声認識プログラムは、音声入力手段から入力された音声を文字データに変換するために、コンピュータを、話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、前記音声データを所定条件下にて分割する音声データ分割手段と、分割された前記音声データに発言開始時刻を含む時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成手段、として機能させることを特徴とする。
本発明にあっては、コンピュータを音声データ保存手段や音声データ分割手段、発言ファイル作成手段として機能させることにより、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、発言単位に分割された個々のデータに時間情報を付加して発言ファイルを作成する。このような発言ファイルを音声認識エンジンに送出することにより、複数話者の発言が錯綜しても、音声認識エンジン上に複数人の音声データが流れるのを防止でき、複数人の音声が混じり合うことによる誤変換や変換不能を回避し、正確な音声認識による文字変換が可能となる。
本発明の他の音声認識プログラムは、音声入力手段から入力された音声を文字データに変換するために、コンピュータを、話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、前記音声データを所定条件下にて分割する音声データ分割手段と、分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加手段、として機能させることを特徴とする。
本発明にあっては、コンピュータを音声データ保存手段や音声データ分割手段、記号データ付加手段として機能させることにより、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、分割された個々データの先頭に所定の記号の音声データを付加する。このような音声データを音声認識エンジンに送出することにより、音声データの発言先頭部分が明確となり、例えば、発言の前後関係を参照して音声データの文字化を行う音声認識エンジンなどにおける認識精度の向上が図られる。
なお、コンピュータを、音声認識エンジンによって文字化された各発言の文字データが格納された発言文字ファイルを保存する発言文字ファイル保存手段として機能させたり、前記発言文字ファイルを、前記時間情報に基づいて、時間経過に沿って配列する発言文字ファイルソート手段として機能させたり、前記発言ファイル中の音声データを音声信号として出力する発言音声出力手段として機能させたりすることも可能である。また、コンピュータを、前記音声認識エンジンによって文字化された前記音声データの文字データから、前記記号に相当する文字データを削除する記号削除手段として機能させることも可能である。
本発明の音声認識システムによれば、音声入力手段より入力された音声を、話者を特定する話者情報と共に所定形式の音声データとして保存し、該音声データを所定条件下にて分割すると共に分割された各音声データに発言開始時刻を示す時間情報を付加し、該時間情報と共に音声データを格納した発言ファイルを作成してそれを音声認識エンジンに対し送出するようにしたので、複数話者の発言が錯綜し時間的に重複した場合であっても、音声認識エンジンに対し複数人の音声データが混じり合った音声データが送出されるのを防止できる。このため、複数話者による発言の重複に起因する誤変換や変換不能など事態を回避することができ、音声認識による文字変換精度を向上させることが可能となる。
また、音声入力手段を話者毎に個別に設けると共に、各音声入力手段を異なるインターフェース端子に接続するようにしたので、話者毎に専用のデバイスが設定され、音声入力手段と話者とが1対1の関係となり、容易かつ正確に複数話者の切り分けが可能となる。
一方、本発明の他の音声認識システムは、音声入力手段より入力された音声を所定形式の音声データとして保存し、該音声データを所定条件下にて分割すると共に、分割された各音声データの先頭に所定の記号の音声データを付加した上で、該音声データを音声認識エンジンに送出するするようにしたので、音声データの発言先頭部分が明確となり、音声認識エンジンにおける認識精度の向上が図られる。
本発明の音声認識プログラムによれば、コンピュータを、音声データ保存手段や音声データ分割手段、発言ファイル作成手段として機能させ、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、発言単位に分割された個々のデータに時間情報を付加して発言ファイルを作成するようにしたので、このような発言ファイルを音声認識エンジンに送出することにより、複数話者の発言が錯綜しても、音声認識エンジン上に複数人の音声データが流れるのを防止でき、複数人の音声が混じり合うことによる誤変換や変換不能を回避し、正確な音声認識による文字変換が可能となる。
本発明の他の音声認識プログラムによれば、コンピュータを音声データ保存手段や音声データ分割手段、記号データ付加手段として機能させ、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、分割された個々データの先頭に所定の記号の音声データを付加するようにしたので、このような音声データを音声認識エンジンに送出することにより、音声データの発言先頭部分が明確となり、音声認識エンジンにおける認識精度の向上が可能となる。
以下、本発明の実施例を図面に基づいて詳細に説明する。図1は、本発明の一実施例である音声認識システムの全体構成を示す説明図である。図1の音声認識システムは、複数のマイクロフォンによる多チャンネル同時録音が可能となっており、例えば、会議の議事録作成サポートシステムなどに利用される。本発明の音声認識システムでは、会議中に複数の話者の発言が錯綜した場合でも、「ドラゴンスピーチ」のような音声認識エンジンによって正確に文字化できるよう構成されており、従来のシステムのような誤変換の低減が図られている。
図1に示すように、当該音声認識システムでは、各話者A,B,C毎に個別のマイクロフォン1a〜1c(音声入力手段)が配置される。マイクロフォン1a〜1cは、パーソナルコンピュータ(電子計算機;以下、PCと略記する)2に接続されており、各話者A,B,Cの発言は、音声信号としてPC2に送出される。PC2内では、この音声信号を音声認識エンジンによって文字化(テキストファイル化)し、文字化された発言内容はモニタ(発言表示手段)3に表示される。発言内容は、キーボード4からの入力により、適宜、追加・修正等を行うことができる。作成した議事録の音声データや文字データは、CDやDVD等のリームーバルメディア5に記録したり、プリンタ6によって紙等に印刷したりすることが可能となっている。
図2は、図1の音声認識システムにおけるPC2の構成を示すブロック図である。図2に示すように、PC2には、音声入力部11、音声認識部12、データ出力部13、制御部14及びメモリ部15が設けられている。音声入力部11にはマイクロフォン1a〜1cが接続されており、各マイクロフォン1a〜1cは、それぞれ異なるUSBポート(インターフェース端子)16a〜16cに接続されている。マイクロフォン1a〜1cはそれぞれ別個の話者に割り当てられており、当該システムでは、接続ポートと基準に話者を区別する。すなわち、PC2側では、ポートを異にするマイクロフォンからの音声信号は、別個の話者の音声として認識する。
このように、本発明のシステムでは、話者毎に専用のデバイスが設定されるため、マイクロフォンと話者とが1対1の関係となり、容易かつ正確に話者の切り分けが可能となる。なお、マイクロフォン1a〜1cとしては、他の話者の音声を拾いにくい超指向性のマイクロフォンを使用することが望ましい。但し、無指向性のマイクロフォンを使用した場合であっても、対象となる話者と他の話者との音声には大きな音量差があるため、PC2側において所定の閾値を設定することにより両者を区別することは可能である。
音声認識部12にはさらに、発言データ抽出部21、記号データ付加部(記号データ付加手段)22、音声認識エンジン23、記号削除部24、発言文字ファイル保存部25、発言文字ファイルソート部26及び発言音声出力部27がそれぞれ設けられている。音声認識部12では、マイクロフォン1a〜1cから送られてきた音声信号から、所定の手順にて各話者毎の発言データを抽出し、記号データ付加部22にて所定の記号音声データを付加し、それを音声認識エンジン23によって文字化する。文字化されたデータは、付加された記号音声データに相当する文字を記号削除部24にて削除した後、発言文字ファイル保存部25に格納される。発言文字ファイル保存部25内のデータは、所定条件下(発言時刻順など)、発言文字ファイルソート部26によって並び換えられ、データ出力部13に送られる。発言文字ファイルは、データ出力部13からデータ表示部17に送られ、文字化された発言内容がモニタ3やプリンタ6などにて適宜表示される。
一方、発言データ抽出部21において保存されている音声データは、ユーザ側の要求により、適宜、発言音声出力部27を介してデータ出力部13に送られる。なお、発言音声出力部27から出力される音声データには、前述の「付加記号」は含まれていない。これにより、ユーザ側では、文字化された発言内容をモニタ3にて視認できるのみならず、発言自体を直接聴取することができる。例えば、音声認識エンジン23の誤認識により文字化された発言内容が不明確な場合や、会議中の雰囲気を知りたい場合などには、改めて発言を聴取することにより、発言を修正したり、発言者の意図を正確に把握したりすることができ、より効果的な議事録作成が可能となる。
制御部14には、CPUやMPUなどの制御手段が配置される。制御部14は、メモリ部15に格納された制御プログラムに基づいて動作し、音声認識部12における各処理を実行する。メモリ部15には、例えば、ハードディスク(HD)やEEPROM等を用いた、ROM部15aとRAM部15bが設けられている。ROM部15aには、制御部14が当該システム全体を制御するための制御プログラム等が格納されている。本発明による音声認識プログラムも、PC2を各種手段として機能させるべく、ROM部15aに格納されている。RAM部15bには、制御部14が当該システム全体を制御する際に必要な各種データが一時的に記憶される。
図3は発言データ抽出部21の構成を示すブロック図、図4は発言データ抽出部21内における処理を模式的に示した説明図である。図3に示すように、発言データ抽出部21内にはさらに、音声データ保存部(音声データ保存手段)31、音声データ分割部(音声データ分割手段)32、発言ファイル作成部(発言ファイル作成手段)33、発言ファイル保存部34及び発言ファイル送出部35が設けられている。音声データ保存部31は、マイクロフォン1a〜1cから音声入力部11を介して入力されてきた各話者の音声信号を、話者を特定する話者情報と共に、所定形式の音声データとして保存する。音声データ保存部31では、音声データは、例えばWAVE形式にて、各話者毎(USBポート16a〜16cの入力毎)に保存される。すなわち、音声データ保存部31には、図4に示すように、発言部分(斜線部)を含むWAVEファイルA,B,Cが作成され保存される。
音声データ分割部32では、音声データ保存部31に保存されたWAVEファイルA,B,Cを所定条件に従って分割する。この場合、通常、ある話者が発言している間は、他の話者は発言していない場合が大半であり、また、1つのマイクロフォンは専ら1人の音声を拾い、他の話者の音声は使用者に比して非常に小さい。このため、無音状態(或いは無音状態と見なし得る状態)が一定時間続いた場合には、その時点で当該マイクロフォンの使用者の発言は終了した、と判断することも可能である。
そこで、当該システムでは、無音状態が所定時間以上継続した場合、音声データをその時点で分割し、各発言単位の分割WAVEファイルを形成する。つまり、無音時間が一定時間続くと音声データが分割され、有音部分の前後のわずかな無音部分を除き、無音部分が割愛された分割WAVEファイルが形成される。この際、無音時間が少ない場合には、音声ファイルは分割されず、当該無音部分が残った形となり、次に無音部分が所定時間を超えた時点でデータが分割される。
音声データの分割に際し、無音状態と判断する音量や継続時間はユーザー側にて変更できる。例えば、WAVEファイルの振幅がある閾値以下の状態が90秒継続した場合に発言終了として処理する(データを分割する)。また、閾値として音量の絶対値を用いても良く、例えば、音量30db以下が90秒継続した場合にデータを分割するなどの条件を設定しても良い。ユーザー側では、このような閾値を出席者やその場の環境等に応じて適宜選択し、最適な判断条件を設定する。なお、会議冒頭や発言の少ない話者等の場合、無音ファイルが多数形成される可能性があるが、このような無音ファイルは適宜削除される。
発言ファイル作成部33は、音声データ分割部32にて分割された音声データに、発言開始時刻Tと発言継続時間tを示す時間情報(図4のT1(t1)等)を付加して発言ファイルを作成する。なお、発言継続時間tは必ずしも付加する必要はない。発言ファイル内には、この時間情報と話者情報が音声データと共に格納される。発言開始時刻は、録音開始時刻とそこからの経過時間で決まるが、録音開始時刻は録音時にPC等のリアルタイムクロックから取得し、経過時間は録音ファイル上のサンプリング位置とサンプリングレートから算出する。録音時に取得された録音開始時刻情報は一旦録音ファイルに付加され、分割時に発言時刻を算出するときに経過時間と可算される。なお、時間情報は、例えば1970年1月1日からの経過時間をミリ秒で表現しておき、後で表示するときに年月日時分秒等に変換する。
発言ファイル保存部34では、発言ファイル作成部33にて作成された発言ファイルを保存する。発言ファイル送出部35は、発言ファイル作成部33に保存されている発言ファイルを記号データ付加部22に送出する。記号データ付加部22は、発言ファイルを音声認識エンジン23に渡す直前に、各発言ファイルの音声データの先頭に読点(。)やピリオド(.)等、通常、文章の最後に配される記号の音声データ(「まる」,「ピリオド」等)を付加する。この記号音声データは予めシステム内に準備されROM部15aに格納されており、システム内で自動的に付加される。
一般に、音声認識エンジンでは、音声データの音から該当する文字を検索する機能と共に、前後の文脈を解析して文字の認識精度を向上させる処理が行われている。ところが、分割された音声データの場合、その前段にはデータがないため、音声認識エンジン23側にて文脈解析に迷いが生じ、文頭部分では認識精度がやや低下する傾向がある。これに対し、本発明の音声認識システムでは、分割された音声データの先頭に、通常、文章の最後に配される記号の音声データを付加しているため、発言先頭部分が明確となる。これにより、音声認識エンジン23側においても、明確にそれが文頭であることが認識でき、文脈解析における迷いを防止することができる。このため、従来の音声認識システムに比して、文頭部分における認識精度を向上させることができ、文字変換精度の更なる向上が図られる。
記号データ付加部22にて「まる」等の記号音声データが付加された音声データは、1個ずつ音声認識エンジン23に送出される。この際、発言ファイルは、時間情報と話者情報によってソートされ、各話者別に発言時刻に沿って音声認識エンジン23に送出される。すなわち、発言ファイル送出部35は、話者A,B,Cを区別することなく発言ファイルを音声認識エンジン23に送るのではなく、まず、話者Aのファイルを送り、その後に話者Bのファイルを送る、というように、話者毎にファイルをまとめて各人別に発言ファイルを音声認識エンジン23に送る。これは、音声認識エンジン23では特定話者の認識率が高い傾向があり、話者の異なる音声が三々五々連続するよりも、同一人の音声が連続する方が、音声認識エンジン23における変換精度が高いためである。なお、音声認識エンジン23における認識率向上のため、文字変換処理前に、各話者の声の特徴をシステムに登録し学習させておくことが望ましい。
このように、本発明による音声認識システムでは、複数話者による発言を各話者毎にデバイスを異ならせることにより、各話者毎の音声データとし、さらに、それを発言単位で分割する。そして、発言単位に分割された個々のファイルを1個ずつ音声認識エンジン23に送出し、音声データの文字化を行う。従って、複数話者の発言が錯綜しても、音声認識エンジン23上では常に1人の音声データのみが流れ、複数人の音声が混じり合うことによる誤変換や変換不能を回避できる。これにより、正確な音声認識による文字変換が可能となり、音声認識エンジン23による文字変換精度の向上が図られる。
音声認識エンジン23に送られた発言ファイルは、音声データが文字化され、発言文字ファイルが作成される。発言文字ファイルは各話者の各発言毎に作成され、文字化された発言のテキストファイルと、話者情報及び時間情報、対応するWAVEファイル名が格納される。発言文字ファイルは記号削除部24に送られ、ここで、先に付加した記号音声データに相当する記号(「。」や「.」等)をテキストファイルの先頭から削除する。記号が削除された発言文字ファイルは、発言文字ファイル保存部25に保存され、その後、発言文字ファイルソート部26に送られる。発言文字ファイルソート部26では、各発言文字ファイル内の時間情報に基づいて、発言時刻順に発言文字ファイルを並び換える。すなわち、話者が誰であるかにかかわらず、発言文字ファイルを時系列に再配列し、データ出力部13に送出する。
データ出力部13からデータ表示部17に送られた発言文字ファイルは、そのテキストファイルの内容(発言内容)が時系列でモニタ3等に表示される。テキストファイルは、データ出力部13にてHTML変換され、データ表示部17にHTMLファイルとして書き出される。その際、データ出力部13は、発言文字ファイル内のデータから発言者名を取得し、それをデータ表示部17の表示内の発言者欄に書き込む。また、発言内容を直接聞くことができるように、各発言のWAVEファイル名を取得して表示内にリンクを張る。
このように、当該音声認識システムにて取得された音声データは、個々の発言として文字化され、発言時間順にモニタ3等に表示される。この際、モニタ3上では、発言内容を追加・修正等することができ、その際、実際の音声を参照することもできる。修正等を行った発言は適宜保存され、プリンタ4を用いてそれを印刷することもできる。さらに、前述のように、DVD等の外部メディアに保存することも可能である。
次に、本発明による音声認識システムを用いた議事録作成処理について、具体例に基づいて説明する。当該処理は、ROM部15aに格納された音声認識プログラムを実行することによって実施される。図5は会議中における話者A,B,Cの発言状態を示す説明図であり、図中の斜線部分が各話者による発言時間である。図5に示すように、当該会議は9:00から開始され、話者Aが9:02'05''〜9:03'15''の間、話者Bが9:03'18''〜9:04'30''の間に発言を行っている。議事録作成処理では、音声認識システムにより、「録音」→「文字化」→「編集」の3ステップが実行され、会議の開始に伴って、まず会議での発言が録音され音声データ保存部31にWAVEファイルにて保存される。そして、会議終了後、ユーザーのPC操作により、音声認識による文字変換と議事録作成が行われる。
このような発言状態の場合、従来の音声認識システムでは、発言が重複する図中X1,X2のような部分に関しては、音声認識エンジンによって正確な文字変換を行えなかった。つまり、X1ではAとC、X2ではAとBの発言が輻輳し、意味不明な発言しか示されなかった。これに対し、本発明による音声認識システムでは、話者毎にWAVEファイルを作成し、それを発言単位で分割して音声認識エンジン23に送るので、音声認識エンジンの性能を遺憾なく発揮でき、X1,X2部分の発言も正確に文字変換することが可能となる。
そこで、当該音声認識システムでは、ユーザーから指示が出されると、音声データ分割部32は、まず、制御部14の指示に基づき、音声データ保存部31に保存されたWAVEファイルを無音部分にて分割する。分割した音声データには、発言ファイル作成部33にて、話者情報と共に時間情報が付与され発言ファイルが作成される。図6は、図5の発言に対する発言ファイルを示す説明図であり、(a),(b),(c)はそれぞれ話者A,B,Cに対応している。図6に示すように、発言ファイル作成部33では、話者名と発言開始時間及び発言経過時間の情報が含まれた発言ファイルが形成され、例えば、9:02'05''〜9:03'15''の間のAの発言については、ファイルA0001が形成される。なお、時間情報は、実際には前述のように累積msにて付与されるが、ここでは、図5との対応やモニタ3での表示に対応して時刻表示としている。
発言ファイルは発言ファイル保存部34に保存され、発言ファイル送出部35から「ドラゴンスピーチ」等の音声認識エンジン23に送られる。その際、図6(a)→(b)→(c)のように、発言ファイルは各話者別に送られる。これにより、音声認識エンジン23によって発言が文字化され、話者情報及び時間情報と共に発言文字ファイルとして発言文字ファイル保存部25に保存される。その際、発言ファイルは、各話者毎に個別に作成され、他の話者の発言が混入していないため、X1,X2のような発言重複部分が存在しても、認識不能となることがなく、正確な文字変換が実行される。
その後、発言文字ファイルは、発言文字ファイルソート部26に送られ、時間情報に基づき時系列に並び換えられる。図7は、時系列に並び換えられた発言文字ファイルを示す説明図である。図7に示すように、ここでは、発言文字ファイルは、発言開始時刻順に並べられる。時系列に配列された発言文字ファイルは、データ出力部13からデータ表示部17に送られる。図8はデータ表示部17における表示の一例であり、(a)はHTMLファイルの表示例、(b)はテキストファイルの表示例を示している。
図8(a)では、データ出力部13から出力されたHTMLファイルにより、時系列に発言者名と発言内容が表示される。また、画面上には、各発言のWAVEファイルとリンクした音声再生ボタン41が表示される。音声再生ボタン(音声出力再生表示)41をクリックすると、その発言に対応するWAVEファイルが再生され、発言を直接聴取することができる。図8(b)では、発言文字ファイルのテキストデータにより、時系列に発言者名と発言時刻及び発言内容が表示される。図8(b)の場合、各発言は、PC中の「メモ帳」(商品名)等のテキストエディタにて表示され、その内容を適宜加筆・修正することができる。
一方、当該システムを用いた議事録作成サポートシステムには、修正用のエディタも搭載されており、それを用いて発言内容の修正を行うことも可能である。図9は、修正用エディタの表示画面の一例を示す説明図であり、図9の表示画面では、右ウインドウにて発言全体を俯瞰し、左ウインドウにて各発言を一話ずつ修正できるようになっている。画面の右ウインドウは、時系列にて発言を表示する議事録画面(時系列表示部)42となっており、会議中の全発言が表示される。一方、左ウインドウは、編集画面(発言修正部)43となっており、各話者の発言が発言毎に表示される。
図9では、発言者Bによる9:03'18''からの発言が編集画面43に表示されており、発言内容は、キーボード4等を用いて加筆・修正することができる。編集画面43の表示は、編集画面43の下方に設けられた発言切換ボタン44をクリックすることにより、次発言や前発言に切り替えることができる。編集後、全テキスト更新ボタン45をクリックすると、当該発言は修正後の状態で更新保存される。また、音声再生ボタン46をクリックすることにより、発言内容を再生することもでき、発言を直接聞きながら、議事録の修正を行うことができる。この場合、音声再生中に、誤認識の箇所でクイック補正ボタン47をクリックすると、別の変換候補が表示され、修正履歴は自動的に学習され次回からの認識率向上が図られる。
修正された議事録は、HTML生成ボタン48をクリックすることにより、改めてHTMLデータとして保存される。この場合、HTMLデータや音声データは、リームーバルメディア5にデジタル記録することができ、テープや紙に比して保存に要する場所を大幅に削減することができる。
このように、当該システムを使用して議事録を作成すれば、従来のテープ起こしに比して数倍のスピードで議事録を作成することが可能となる。また、各種のボタンをクリックするだけで諸作業を行うことができ、操作が簡単でパソコン初心者でもすぐに操作することができる。従って、議事録作成に要する作業負荷が大幅に軽減され、人件費や外注費などのコスト削減に大きく寄与することが可能となる。さらに、議事録作成を外注する場合の情報漏洩リスクを回避でき、個人情報等も的確に秘守することが可能となる。
本発明は前記実施例に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
例えば、前述の実施例では、1台のPCにマイクロフォンを接続した構成となっているが、複数台のPCを用いて当該システムを構成することも可能である。その場合、例えば、ある1台のPCをリモートとし、リモートPC側には、各ローカルPCに対応した特定のフォルダを作成し、ローカルPCの録音ファイルはそのフォルダ内に格納するようにしても良い。その際、それぞれのローカルPCで録音された録音ファイルには、ファイルの保存場所であるリモートPC上の時刻が付与されるので、PC同士で時刻合わせをしておく必要がない。
また、複数台のPCを用いる場合、各PCにて録音を行い音声データをリモートPCに集めて文字化する構成のみならず、各PC毎に音声認識エンジンを用いて音声データを文字化し、文字データをリモートPC側に集めるようにしても良い。この場合、分割された音声データや文字データには、話者情報と時間情報が付随しているため、各PCにて並列処理を行っても、データが重複するなどの不都合はない。なお、複数台のPCを使用する場合の時刻合わせについては、上述した(1)リモートPC上の時刻を共有する方法の他に、(2)1台のPCを基準とし、そこからの時刻のずれを取得して後で補正する、(3)タイムサーバを用いて各PCの時刻を常に正確に設定しておく等の方法もある。
また、音声入力手段が接続されるインターフェース端子は、USBポートには限定されず、サウンドカードやネットワーク端子であっても良い。ネットワーク端子を使用した場合、LANやインターネット等によって接続された他のPC等を介して、遠隔地からの音声入力が可能となり、当該システムを遠隔会議に適用することが可能となる。なお、時間情報が付属している音声データであれば、ICレコーダ等に録音された音声も使用可能である。なお、前述の実施例では、3人の話者による会議を想定し、マイクロフォンを3個使用したシステムについて述べたが、マイクロフォンの使用個数に実装上の制限はなく、ハードウエアの能力次第で何個でも使用することができる。
さらに、前述の実施例では、音声認識エンジン23による文字変換の後に、発言文字ファイルをソートして時系列に配列しているが、発言ファイルを時系列にソートした後、音声認識エンジン23に掛けても良い。但し、前述のように、音声認識エンジン23では、話者毎に文字変換を行った方が、異なる話者の音声が順不同に連続する場合よりも変換精度が高いため、時系列のソートは、音声認識エンジン23による文字変換の後に実行した方が好ましい。
加えて、前述のシステムでは、記号データ付加部22や記号削除部24を省くことも可能である。また、記号データ付加部22や記号削除部24による処理は、話者情報や時間情報を付加せずに音声認識を行うシステムにも適用できる。
一方、議事録の表示形態は図8,9のような形態には限定されない。例えば、前述のX1,X2のような複数話者が重複して発言しているような場面では、発言を左右に並列表示するなどして、発言が重なっていることを視覚的に表示しても良い。また、全く同時に発言を開始した場合も同様に並列表示しても良い。なお、図8,9の表示では、完全同時の発言は、マイクロフォンのポート番号の若い順など、適宜、優先順位を決めて表示が行われる。
前述の実施例では、本発明の音声認識システムを会議の議事録作成処理に適用した例を示したが、その用途は会議には限定されず、例えば、採用面接の記録作成や、インタビュー・対談の記録などにも適用できる。また、会議の種類も、日常的に行われる会議のみならず、商法で記録を残すことが義務付けられている取締役会の議事録や、議会議事録、英語等の外国語による国際会議の議事録作成にも適用できる。外国語による議事録作成に際しては、翻訳エンジンとの協働も可能である。
本発明の一実施例である音声認識システムの全体構成を示す説明図である。 図1の音声認識システムにおけるPCの構成を示すブロック図である。 発言データ抽出部の構成を示すブロック図である。 発言データ抽出部内における処理を模式的に示した説明図である。 会議中における話者A,B,Cの発言状態を示す説明図であり、図中の斜線部分が各話者による発言時間である。 図5の発言に対する発言ファイルを示す説明図であり、(a),(b),(c)はそれぞれ話者A,B,Cに対応している。 時系列に並び換えられた発言文字ファイルを示す説明図である。 データ表示部における表示の一例であり、(a)はHTMLファイルの表示例、(b)はテキストファイルの表示例を示している。 修正用エディタの表示画面の一例を示す説明図である。
符号の説明
1a〜1c マイクロフォン(音声入力手段)
2 パーソナルコンピュータ(電子計算機)
3 モニタ(発言表示手段)
4 キーボード
5 リームーバルメディア
6 プリンタ
11 音声入力部
12 音声認識部
13 データ出力部
14 制御部
15 メモリ部
15a ROM部
15b RAM部
16a〜16c USBポート(インターフェース端子)
17 データ表示部
21 発言データ抽出部
22 記号データ付加部(記号データ付加手段)
23 音声認識エンジン
24 記号削除部(記号削除手段)
25 発言文字ファイル保存部(発言文字ファイル保存手段)
26 発言文字ファイルソート部(発言文字ファイルソート手段)
27 発言音声出力部(発言音声出力手段)
31 音声データ保存部(音声データ保存手段)
32 音声データ分割部(音声データ分割手段)
33 発言ファイル作成部(発言ファイル作成手段)
34 発言ファイル保存部(発言ファイル保存手段)
35 発言ファイル送出部(発言ファイル送出手段)
41 音声再生ボタン(音声出力再生表示)
42 議事録画面(時系列表示部)
43 編集画面(発言修正部)
44 発言切換ボタン
45 全テキスト更新ボタン
46 音声再生ボタン
47 クイック補正ボタン
48 HTML生成ボタン

Claims (14)

  1. 音声入力手段より入力された音声を、話者を特定する話者情報と共に、所定形式の音声データとして保存する音声データ保存部と、
    前記音声データを所定条件下にて分割する音声データ分割部と、
    分割された前記音声データに所定の時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成部と、
    前記発言ファイルを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする音声認識システム。
  2. 請求項1記載の音声認識システムにおいて、前記音声データ分割部は、前記音声データにおいて所定音量以下の状態が所定時間以上継続した場合に前記音声データを分割することを特徴とする音声認識システム。
  3. 請求項1または2記載の音声認識システムにおいて、前記発言ファイル送出部は、前記発言ファイルを前記話者別に前記音声認識エンジンに対し送出することを特徴とする音声認識システム。
  4. 請求項1〜3の何れか1項に記載の音声認識システムにおいて、前記時間情報は、前記話者の発言開始時刻を含むことを特徴とする音声認識システム。
  5. 請求項1〜4の何れか1項に記載の音声認識システムにおいて、前記音声認識システムは前記音声入力手段が接続される音声入力部を備え、前記音声入力手段は前記話者毎に個別に設けられると共に、各前記音声入力手段はそれぞれ前記音声入力部の異なるインターフェース端子に接続されることを特徴とする音声認識システム
  6. 請求項1〜5の何れか1項に記載の音声認識システムにおいて、前記音声認識システムは、前記音声認識エンジンによって文字化された各発言の文字データが格納された発言文字ファイルを、前記時間情報に基づいて、時間経過に沿って配列する発言文字ファイルソート部を有することを特徴とする音声認識システム。
  7. 請求項1〜6の何れか1項に記載の音声認識システムにおいて、前記音声認識システムは、前記発言ファイル中の音声データを音声信号として出力する発言音声出力部を有することを特徴とする音声認識システム。
  8. 請求項7記載の音声認識システムにおいて、前記音声認識システムは、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を有すると共に、前記発言表示手段の表示中に、前記文字データと対応した発言の音声信号を前記発言音声出力部から出力させる音声出力再生表示を設けることを特徴とする音声認識システム。
  9. 請求項1〜8の何れか1項に記載の音声認識システムにおいて、前記音声認識システムは、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を有すると共に、前記発言表示手段には、前記各発言の文字データを時間経過に沿って表示する時系列表示部と、前記時系列表示部中の各発言を抽出表示し、該発言内容を任意に修正可能な発言修正部が表示可能なことを特徴とする音声認識システム。
  10. 音声入力手段より入力された音声を所定形式の音声データとして保存する音声データ保存部と、
    前記音声データを所定条件下にて分割する音声データ分割部と、
    分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加部と、
    前記記号が付加された音声データを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする音声認識システム。
  11. 請求項10記載の音声認識システムにおいて、前記記号付加部は、分割された前記音声データの先頭に、通常、文章の最後に配される記号の音声データを付加することを特徴とする音声認識システム。
  12. 請求項10又は11記載の音声認識システムにおいて、前記音声認識システムは、前記音声認識エンジンによって文字化された前記音声データの文字データから、前記記号に相当する文字データを削除する記号削除部を有することを特徴とする音声認識システム。
  13. 音声入力手段から入力された音声を文字データに変換するために、コンピュータを、
    話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、
    前記音声データを所定条件下にて分割する音声データ分割手段と、
    分割された前記音声データに発言開始時刻を含む時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成手段、
    として機能させるための音声認識プログラム。
  14. 音声入力手段から入力された音声を文字データに変換するために、コンピュータを、
    話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、
    前記音声データを所定条件下にて分割する音声データ分割手段と、
    分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加手段、
    として機能させるための音声認識プログラム。
JP2005121858A 2005-04-20 2005-04-20 音声認識システム及び音声認識プログラム Pending JP2006301223A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005121858A JP2006301223A (ja) 2005-04-20 2005-04-20 音声認識システム及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005121858A JP2006301223A (ja) 2005-04-20 2005-04-20 音声認識システム及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2006301223A true JP2006301223A (ja) 2006-11-02

Family

ID=37469594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005121858A Pending JP2006301223A (ja) 2005-04-20 2005-04-20 音声認識システム及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2006301223A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172679A (ja) * 2007-01-15 2008-07-24 Kenwood Corp 録音システム及びマイクロフォン装置
WO2010113438A1 (ja) * 2009-03-31 2010-10-07 日本電気株式会社 音声認識処理システム、および音声認識処理方法
WO2011074260A1 (ja) * 2009-12-17 2011-06-23 日本電気株式会社 音声認識システム
JP2015102667A (ja) * 2013-11-25 2015-06-04 シャープ株式会社 電子機器
CN105426675A (zh) * 2015-11-13 2016-03-23 江苏大学 一种全自动医院电话随访方法及其电话装置
EP3010016A1 (en) * 2014-10-15 2016-04-20 Fujitsu Limited Input information support apparatus, method for supporting input information, and input information support program
JP2017182822A (ja) * 2017-05-08 2017-10-05 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
WO2018008227A1 (ja) * 2016-07-08 2018-01-11 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JP2018060568A (ja) * 2007-08-16 2018-04-12 クリムソン コーポレイション 音声を利用できるテルネットインターフェイス
JP2018106148A (ja) * 2016-12-12 2018-07-05 ソリザバ カンパニー リミテッドSorizava Co., Ltd. 多重話者音声認識修正システム
JP2020030468A (ja) * 2018-08-20 2020-02-27 アイホン株式会社 看護業務支援システム
US10873621B1 (en) 2014-08-20 2020-12-22 Ivanti, Inc. Terminal emulation over html
WO2021002649A1 (ko) * 2019-07-03 2021-01-07 주식회사 마인즈랩 개별 화자 별 음성 생성 방법 및 컴퓨터 프로그램
JP2021081483A (ja) * 2019-11-15 2021-05-27 前田建設工業株式会社 議事録データ作成システム
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008172679A (ja) * 2007-01-15 2008-07-24 Kenwood Corp 録音システム及びマイクロフォン装置
US10938886B2 (en) 2007-08-16 2021-03-02 Ivanti, Inc. Scripting support for data identifiers, voice recognition and speech in a telnet session
JP2018060568A (ja) * 2007-08-16 2018-04-12 クリムソン コーポレイション 音声を利用できるテルネットインターフェイス
JPWO2010113438A1 (ja) * 2009-03-31 2012-10-04 日本電気株式会社 音声認識処理システム、および音声認識処理方法
US8606574B2 (en) 2009-03-31 2013-12-10 Nec Corporation Speech recognition processing system and speech recognition processing method
JP5533854B2 (ja) * 2009-03-31 2014-06-25 日本電気株式会社 音声認識処理システム、および音声認識処理方法
WO2010113438A1 (ja) * 2009-03-31 2010-10-07 日本電気株式会社 音声認識処理システム、および音声認識処理方法
WO2011074260A1 (ja) * 2009-12-17 2011-06-23 日本電気株式会社 音声認識システム
JP2015102667A (ja) * 2013-11-25 2015-06-04 シャープ株式会社 電子機器
US10873621B1 (en) 2014-08-20 2020-12-22 Ivanti, Inc. Terminal emulation over html
EP3010016A1 (en) * 2014-10-15 2016-04-20 Fujitsu Limited Input information support apparatus, method for supporting input information, and input information support program
US9870197B2 (en) 2014-10-15 2018-01-16 Fujitsu Limited Input information support apparatus, method for supporting input information, and computer-readable recording medium
CN105426675A (zh) * 2015-11-13 2016-03-23 江苏大学 一种全自动医院电话随访方法及其电话装置
WO2018008227A1 (ja) * 2016-07-08 2018-01-11 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JPWO2018008227A1 (ja) * 2016-07-08 2018-08-16 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
US10872605B2 (en) 2016-07-08 2020-12-22 Panasonic Intellectual Property Management Co., Ltd. Translation device
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen
JP2018106148A (ja) * 2016-12-12 2018-07-05 ソリザバ カンパニー リミテッドSorizava Co., Ltd. 多重話者音声認識修正システム
JP2017182822A (ja) * 2017-05-08 2017-10-05 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
JP2020030468A (ja) * 2018-08-20 2020-02-27 アイホン株式会社 看護業務支援システム
WO2021002649A1 (ko) * 2019-07-03 2021-01-07 주식회사 마인즈랩 개별 화자 별 음성 생성 방법 및 컴퓨터 프로그램
JP2021081483A (ja) * 2019-11-15 2021-05-27 前田建設工業株式会社 議事録データ作成システム

Similar Documents

Publication Publication Date Title
JP2006301223A (ja) 音声認識システム及び音声認識プログラム
US11699456B2 (en) Automated transcript generation from multi-channel audio
JP4558308B2 (ja) 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
US20220059096A1 (en) Systems and Methods for Improved Digital Transcript Creation Using Automated Speech Recognition
US6728680B1 (en) Method and apparatus for providing visual feedback of speed production
US9070369B2 (en) Real time generation of audio content summaries
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
US8655654B2 (en) Generating representations of group interactions
US20070244700A1 (en) Session File Modification with Selective Replacement of Session File Components
TWI590240B (zh) 會議記錄裝置及其自動生成會議記錄的方法
JP4272658B2 (ja) オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム
WO2010024426A1 (ja) 録音装置
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
TW201624467A (zh) 會議記錄裝置及其自動生成會議記錄的方法
JP2013222347A (ja) 議事録生成装置及び議事録生成方法
US20020133342A1 (en) Speech to text method and system
JP3859612B2 (ja) 会議録音・書き起こしシステム
JP2006330170A (ja) 記録文書作成支援システム
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
KR102474690B1 (ko) 회의록 작성 방법 및 장치
JP2004020739A (ja) 議事録作成装置、議事録作成方法、議事録作成プログラム
US20240153523A1 (en) Automated transcript generation from multi-channel audio
Zschorn et al. Transcription of multiple speakers using speaker dependent speech recognition
JP7103681B2 (ja) 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
JP7172299B2 (ja) 情報処理装置、情報処理方法、プログラムおよび情報処理システム