JP2006301223A

JP2006301223A - 音声認識システム及び音声認識プログラム

Info

Publication number: JP2006301223A
Application number: JP2005121858A
Authority: JP
Inventors: Toshiyuki Suzuki; 利之鈴木; Atsushi Mishima; 淳三島; Yumiko Hasunuma; 優美子蓮沼
Original assignee: ASCII SOLUTIONS Inc
Current assignee: ASCII SOLUTIONS Inc
Priority date: 2005-04-20
Filing date: 2005-04-20
Publication date: 2006-11-02

Abstract

【課題】発言の時間的重複が生じる可能性のある複数話者による同時録音にも対応可能な音声認識システムを提供する。
【解決手段】マイクロフォン１ａ〜１ｃを話者毎に個別に設け、それぞれを異なるＵＳＢポート１６ａ〜１６ｃに接続する。マイクロフォン１ａ〜１ｃより入力された音声は、話者を特定する話者情報と共に、各話者別にWAVE形式の音声データとして音声データ保存部３１に保存される。音声データは、音声データ分割部３２により、無音部分にて発言単位に分割される。各分割データには、発言ファイル作成部３３にて発言開始時刻を含む時間情報が付加されて発言ファイルが作成され、発言ファイル保存部３４に保存される。発言ファイルは、発言ファイル送出部３５から記号データ付加部２２に送られ記号データが付加された後、音声認識エンジン２３に送出され音声データの文字化が実行される。
【選択図】図３

Description

本発明は、音声を文字化する音声認識システム及び音声認識プログラムに関し、特に、複数話者による会議等における発言内容を正確に文字化し得る音声認識システム及び音声認識プログラムに関する。

近年、音声認識技術の発展に伴い、会議や講演等における話者の音声を、米国スキャンソフト社製の「ドラゴンスピーチ」（商品名）等のような音声認識エンジンを用いて文字データ化し、議事録や講演記録などを作成するシステムが実用化されている。例えば、特許文献２には、会議出席者の音声情報を音声信号化し、それを音声信号変換プログラムによって文字データに変換して議事録を作成する会議支援装置が示されている。そこでは、各発言者の音声信号は、音声入力部（マイクロフォン等）に予め付加されたＩＤに基づいて識別され、音声信号には発言者コードが付加される。音声信号から変換された文字データは、この発言者コードを用いて議事録化され、作成された議事録は、画面にリアルタイムに表示される一方、通信回線を介して特定の外部端末にも送信される。
特開2004-228737号公報特開2004-32229号公報特開2002-101205号公報特開平9-69884号公報特開平8-88843号公報

ところが、このような音声認識システムで使用される音声認識エンジン（音声信号変換プログラム）は、複数話者の音声を区別して認識するような機能は備えていない。このため、複数話者の音声を同時録音した場合、複数人の発言が重複すると、各人の音声が区別できず発言内容を正確に文字化することができない。従って、複数話者が同時に発言することが多い会議のような場面では、そこでの音声をそのまま音声認識エンジンに渡しても、それを正確に文字化できず、全く意味不明で支離滅裂な変換内容となってしまうという問題があった。

この場合、音声が輻輳しなければ、発言者が異なっても比較的正確に音声を文字化できるエンジンは開発されており、かかるエンジンでは、複数話者が交互に話すなどして、会話の錯綜を意識的に回避すれば誤認識は防止できる。しかしながら、実際の会議ではそのような配慮は煩雑であり、会議進行の妨げとなるおそれもあり実用的ではない。一方、特許文献２では、音声信号に発言者コードを付加して話者を特定し、それを変換プログラムにて文字データ化する旨述べられているが、複数人の同時発言をどのように取り扱うかについての言及はなく、議事録作成の手順も明確ではない。

本発明の目的は、発言が時間的に重複する可能性がある複数話者による同時録音にも対応可能な音声認識システムを提供することにある。

本発明の音声認識システムは、音声入力手段より入力された音声を、話者を特定する話者情報と共に、所定形式の音声データとして保存する音声データ保存部と、前記音声データを所定条件下にて分割する音声データ分割部と、分割された前記音声データに所定の時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成部と、前記発言ファイルを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする。

本発明にあっては、音声入力手段を用いて取得した音声データを発言単位で分割する。そして、発言単位に分割された個々のファイルを音声認識エンジンに送出し、音声データの文字化を行う。これにより、複数話者の発言が錯綜しても、音声認識エンジン上に複数人の音声データが流れるのを防止でき、複数人の音声が混じり合うことによる誤変換や変換不能を回避し、正確な音声認識による文字変換が可能となる。

前記音声認識システムにおいて、前記音声データ分割部は、前記音声データにおいて所定音量以下の状態が所定時間以上継続した場合に前記音声データを分割するようにしても良い。また、前記発言ファイル送出部は、前記発言ファイルを前記話者別に前記音声認識エンジンに対し送出するようにしても良い。さらに、前記時間情報が、前記話者の発言開始時刻を含むものであっても良い。

前記音声認識システムにおいて、前記音声入力手段が接続される音声入力部をさらに設け、前記音声入力手段を話者毎に個別に設けると共に、各前記音声入力手段をそれぞれ前記音声入力部の異なるインターフェース端子に接続するようにしても良い。また、前記音声認識システムに、前記音声認識エンジンによって文字化された各発言の文字データが格納された発言文字ファイルを、前記時間情報に基づいて、時間経過に沿って配列する発言文字ファイルソート部をさらに設けても良い。加えて、前記音声認識システムに、前記発言ファイル中の音声データを音声信号として出力する発言音声出力部をさらに設けても良い。

一方、前記音声認識システムに、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を設け、前記発言表示手段の表示中に、前記文字データと対応した発言の音声信号を前記発言音声出力部から出力させる音声出力再生表示を設けても良い。また、前記音声認識システムに、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を設けると共に、前記発言表示手段には、前記各発言の文字データを時間経過に沿って表示する時系列表示部と、前記時系列表示部中の各発言を抽出表示し、該発言内容を任意に修正可能な発言修正部を表示可能に構成しても良い。

また、本発明の他の音声認識システムは、音声入力手段より入力された音声を所定形式の音声データとして保存する音声データ保存部と、前記音声データを所定条件下にて分割する音声データ分割部と、分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加部と、前記記号が付加された音声データを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする。

本発明の音声認識システムにあっては、分割された音声データの先頭に所定の記号の音声データを付加した状態で当該音声データを音声認識エンジンに送出するので、音声データの発言先頭部分が明確となり、例えば、発言の前後関係を参照して音声データの文字化を行う音声認識エンジンなどにおける認識精度の向上が図られる。

前記音声認識システムにおいて、前記記号付加部により、分割された前記音声データの先頭に、例えば、読点（。）の音声データ（「まる」）のように、通常、文章の最後に配される記号の音声データを付加しても良い。また、前記音声認識システムに、前記音声認識エンジンによって文字化された前記音声データの文字データから、前記記号に相当する文字データを削除する記号削除部を設けても良い。

本発明の音声認識プログラムは、音声入力手段から入力された音声を文字データに変換するために、コンピュータを、話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、前記音声データを所定条件下にて分割する音声データ分割手段と、分割された前記音声データに発言開始時刻を含む時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成手段、として機能させることを特徴とする。

本発明にあっては、コンピュータを音声データ保存手段や音声データ分割手段、発言ファイル作成手段として機能させることにより、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、発言単位に分割された個々のデータに時間情報を付加して発言ファイルを作成する。このような発言ファイルを音声認識エンジンに送出することにより、複数話者の発言が錯綜しても、音声認識エンジン上に複数人の音声データが流れるのを防止でき、複数人の音声が混じり合うことによる誤変換や変換不能を回避し、正確な音声認識による文字変換が可能となる。

本発明の他の音声認識プログラムは、音声入力手段から入力された音声を文字データに変換するために、コンピュータを、話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、前記音声データを所定条件下にて分割する音声データ分割手段と、分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加手段、として機能させることを特徴とする。

本発明にあっては、コンピュータを音声データ保存手段や音声データ分割手段、記号データ付加手段として機能させることにより、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、分割された個々データの先頭に所定の記号の音声データを付加する。このような音声データを音声認識エンジンに送出することにより、音声データの発言先頭部分が明確となり、例えば、発言の前後関係を参照して音声データの文字化を行う音声認識エンジンなどにおける認識精度の向上が図られる。

なお、コンピュータを、音声認識エンジンによって文字化された各発言の文字データが格納された発言文字ファイルを保存する発言文字ファイル保存手段として機能させたり、前記発言文字ファイルを、前記時間情報に基づいて、時間経過に沿って配列する発言文字ファイルソート手段として機能させたり、前記発言ファイル中の音声データを音声信号として出力する発言音声出力手段として機能させたりすることも可能である。また、コンピュータを、前記音声認識エンジンによって文字化された前記音声データの文字データから、前記記号に相当する文字データを削除する記号削除手段として機能させることも可能である。

本発明の音声認識システムによれば、音声入力手段より入力された音声を、話者を特定する話者情報と共に所定形式の音声データとして保存し、該音声データを所定条件下にて分割すると共に分割された各音声データに発言開始時刻を示す時間情報を付加し、該時間情報と共に音声データを格納した発言ファイルを作成してそれを音声認識エンジンに対し送出するようにしたので、複数話者の発言が錯綜し時間的に重複した場合であっても、音声認識エンジンに対し複数人の音声データが混じり合った音声データが送出されるのを防止できる。このため、複数話者による発言の重複に起因する誤変換や変換不能など事態を回避することができ、音声認識による文字変換精度を向上させることが可能となる。

また、音声入力手段を話者毎に個別に設けると共に、各音声入力手段を異なるインターフェース端子に接続するようにしたので、話者毎に専用のデバイスが設定され、音声入力手段と話者とが１対１の関係となり、容易かつ正確に複数話者の切り分けが可能となる。

一方、本発明の他の音声認識システムは、音声入力手段より入力された音声を所定形式の音声データとして保存し、該音声データを所定条件下にて分割すると共に、分割された各音声データの先頭に所定の記号の音声データを付加した上で、該音声データを音声認識エンジンに送出するするようにしたので、音声データの発言先頭部分が明確となり、音声認識エンジンにおける認識精度の向上が図られる。

本発明の音声認識プログラムによれば、コンピュータを、音声データ保存手段や音声データ分割手段、発言ファイル作成手段として機能させ、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、発言単位に分割された個々のデータに時間情報を付加して発言ファイルを作成するようにしたので、このような発言ファイルを音声認識エンジンに送出することにより、複数話者の発言が錯綜しても、音声認識エンジン上に複数人の音声データが流れるのを防止でき、複数人の音声が混じり合うことによる誤変換や変換不能を回避し、正確な音声認識による文字変換が可能となる。

本発明の他の音声認識プログラムによれば、コンピュータを音声データ保存手段や音声データ分割手段、記号データ付加手段として機能させ、音声入力手段から入力された音声に対し、話者情報を付加して音声データを作成し、それを発言単位で分割すると共に、分割された個々データの先頭に所定の記号の音声データを付加するようにしたので、このような音声データを音声認識エンジンに送出することにより、音声データの発言先頭部分が明確となり、音声認識エンジンにおける認識精度の向上が可能となる。

以下、本発明の実施例を図面に基づいて詳細に説明する。図１は、本発明の一実施例である音声認識システムの全体構成を示す説明図である。図１の音声認識システムは、複数のマイクロフォンによる多チャンネル同時録音が可能となっており、例えば、会議の議事録作成サポートシステムなどに利用される。本発明の音声認識システムでは、会議中に複数の話者の発言が錯綜した場合でも、「ドラゴンスピーチ」のような音声認識エンジンによって正確に文字化できるよう構成されており、従来のシステムのような誤変換の低減が図られている。

図１に示すように、当該音声認識システムでは、各話者Ａ,Ｂ,Ｃ毎に個別のマイクロフォン１ａ〜１ｃ（音声入力手段）が配置される。マイクロフォン１ａ〜１ｃは、パーソナルコンピュータ（電子計算機；以下、ＰＣと略記する）２に接続されており、各話者Ａ,Ｂ,Ｃの発言は、音声信号としてＰＣ２に送出される。ＰＣ２内では、この音声信号を音声認識エンジンによって文字化（テキストファイル化）し、文字化された発言内容はモニタ（発言表示手段）３に表示される。発言内容は、キーボード４からの入力により、適宜、追加・修正等を行うことができる。作成した議事録の音声データや文字データは、ＣＤやＤＶＤ等のリームーバルメディア５に記録したり、プリンタ６によって紙等に印刷したりすることが可能となっている。

図２は、図１の音声認識システムにおけるＰＣ２の構成を示すブロック図である。図２に示すように、ＰＣ２には、音声入力部１１、音声認識部１２、データ出力部１３、制御部１４及びメモリ部１５が設けられている。音声入力部１１にはマイクロフォン１ａ〜１ｃが接続されており、各マイクロフォン１ａ〜１ｃは、それぞれ異なるＵＳＢポート（インターフェース端子）１６ａ〜１６ｃに接続されている。マイクロフォン１ａ〜１ｃはそれぞれ別個の話者に割り当てられており、当該システムでは、接続ポートと基準に話者を区別する。すなわち、ＰＣ２側では、ポートを異にするマイクロフォンからの音声信号は、別個の話者の音声として認識する。

このように、本発明のシステムでは、話者毎に専用のデバイスが設定されるため、マイクロフォンと話者とが１対１の関係となり、容易かつ正確に話者の切り分けが可能となる。なお、マイクロフォン１ａ〜１ｃとしては、他の話者の音声を拾いにくい超指向性のマイクロフォンを使用することが望ましい。但し、無指向性のマイクロフォンを使用した場合であっても、対象となる話者と他の話者との音声には大きな音量差があるため、ＰＣ２側において所定の閾値を設定することにより両者を区別することは可能である。

音声認識部１２にはさらに、発言データ抽出部２１、記号データ付加部（記号データ付加手段）２２、音声認識エンジン２３、記号削除部２４、発言文字ファイル保存部２５、発言文字ファイルソート部２６及び発言音声出力部２７がそれぞれ設けられている。音声認識部１２では、マイクロフォン１ａ〜１ｃから送られてきた音声信号から、所定の手順にて各話者毎の発言データを抽出し、記号データ付加部２２にて所定の記号音声データを付加し、それを音声認識エンジン２３によって文字化する。文字化されたデータは、付加された記号音声データに相当する文字を記号削除部２４にて削除した後、発言文字ファイル保存部２５に格納される。発言文字ファイル保存部２５内のデータは、所定条件下（発言時刻順など）、発言文字ファイルソート部２６によって並び換えられ、データ出力部１３に送られる。発言文字ファイルは、データ出力部１３からデータ表示部１７に送られ、文字化された発言内容がモニタ３やプリンタ６などにて適宜表示される。

一方、発言データ抽出部２１において保存されている音声データは、ユーザ側の要求により、適宜、発言音声出力部２７を介してデータ出力部１３に送られる。なお、発言音声出力部２７から出力される音声データには、前述の「付加記号」は含まれていない。これにより、ユーザ側では、文字化された発言内容をモニタ３にて視認できるのみならず、発言自体を直接聴取することができる。例えば、音声認識エンジン２３の誤認識により文字化された発言内容が不明確な場合や、会議中の雰囲気を知りたい場合などには、改めて発言を聴取することにより、発言を修正したり、発言者の意図を正確に把握したりすることができ、より効果的な議事録作成が可能となる。

制御部１４には、ＣＰＵやＭＰＵなどの制御手段が配置される。制御部１４は、メモリ部１５に格納された制御プログラムに基づいて動作し、音声認識部１２における各処理を実行する。メモリ部１５には、例えば、ハードディスク（ＨＤ）やＥＥＰＲＯＭ等を用いた、ＲＯＭ部１５ａとＲＡＭ部１５ｂが設けられている。ＲＯＭ部１５ａには、制御部１４が当該システム全体を制御するための制御プログラム等が格納されている。本発明による音声認識プログラムも、ＰＣ２を各種手段として機能させるべく、ＲＯＭ部１５ａに格納されている。ＲＡＭ部１５ｂには、制御部１４が当該システム全体を制御する際に必要な各種データが一時的に記憶される。

図３は発言データ抽出部２１の構成を示すブロック図、図４は発言データ抽出部２１内における処理を模式的に示した説明図である。図３に示すように、発言データ抽出部２１内にはさらに、音声データ保存部（音声データ保存手段）３１、音声データ分割部（音声データ分割手段）３２、発言ファイル作成部（発言ファイル作成手段）３３、発言ファイル保存部３４及び発言ファイル送出部３５が設けられている。音声データ保存部３１は、マイクロフォン１ａ〜１ｃから音声入力部１１を介して入力されてきた各話者の音声信号を、話者を特定する話者情報と共に、所定形式の音声データとして保存する。音声データ保存部３１では、音声データは、例えばWAVE形式にて、各話者毎（ＵＳＢポート１６ａ〜１６ｃの入力毎）に保存される。すなわち、音声データ保存部３１には、図４に示すように、発言部分（斜線部）を含むWAVEファイルＡ,Ｂ,Ｃが作成され保存される。

音声データ分割部３２では、音声データ保存部３１に保存されたWAVEファイルＡ,Ｂ,Ｃを所定条件に従って分割する。この場合、通常、ある話者が発言している間は、他の話者は発言していない場合が大半であり、また、１つのマイクロフォンは専ら１人の音声を拾い、他の話者の音声は使用者に比して非常に小さい。このため、無音状態（或いは無音状態と見なし得る状態）が一定時間続いた場合には、その時点で当該マイクロフォンの使用者の発言は終了した、と判断することも可能である。

そこで、当該システムでは、無音状態が所定時間以上継続した場合、音声データをその時点で分割し、各発言単位の分割WAVEファイルを形成する。つまり、無音時間が一定時間続くと音声データが分割され、有音部分の前後のわずかな無音部分を除き、無音部分が割愛された分割WAVEファイルが形成される。この際、無音時間が少ない場合には、音声ファイルは分割されず、当該無音部分が残った形となり、次に無音部分が所定時間を超えた時点でデータが分割される。

音声データの分割に際し、無音状態と判断する音量や継続時間はユーザー側にて変更できる。例えば、WAVEファイルの振幅がある閾値以下の状態が９０秒継続した場合に発言終了として処理する（データを分割する）。また、閾値として音量の絶対値を用いても良く、例えば、音量30db以下が９０秒継続した場合にデータを分割するなどの条件を設定しても良い。ユーザー側では、このような閾値を出席者やその場の環境等に応じて適宜選択し、最適な判断条件を設定する。なお、会議冒頭や発言の少ない話者等の場合、無音ファイルが多数形成される可能性があるが、このような無音ファイルは適宜削除される。

発言ファイル作成部３３は、音声データ分割部３２にて分割された音声データに、発言開始時刻Ｔと発言継続時間ｔを示す時間情報（図４のT1(t1)等）を付加して発言ファイルを作成する。なお、発言継続時間ｔは必ずしも付加する必要はない。発言ファイル内には、この時間情報と話者情報が音声データと共に格納される。発言開始時刻は、録音開始時刻とそこからの経過時間で決まるが、録音開始時刻は録音時にＰＣ等のリアルタイムクロックから取得し、経過時間は録音ファイル上のサンプリング位置とサンプリングレートから算出する。録音時に取得された録音開始時刻情報は一旦録音ファイルに付加され、分割時に発言時刻を算出するときに経過時間と可算される。なお、時間情報は、例えば１９７０年１月１日からの経過時間をミリ秒で表現しておき、後で表示するときに年月日時分秒等に変換する。

発言ファイル保存部３４では、発言ファイル作成部３３にて作成された発言ファイルを保存する。発言ファイル送出部３５は、発言ファイル作成部３３に保存されている発言ファイルを記号データ付加部２２に送出する。記号データ付加部２２は、発言ファイルを音声認識エンジン２３に渡す直前に、各発言ファイルの音声データの先頭に読点（。）やピリオド（．）等、通常、文章の最後に配される記号の音声データ（「まる」，「ピリオド」等）を付加する。この記号音声データは予めシステム内に準備されＲＯＭ部１５ａに格納されており、システム内で自動的に付加される。

一般に、音声認識エンジンでは、音声データの音から該当する文字を検索する機能と共に、前後の文脈を解析して文字の認識精度を向上させる処理が行われている。ところが、分割された音声データの場合、その前段にはデータがないため、音声認識エンジン２３側にて文脈解析に迷いが生じ、文頭部分では認識精度がやや低下する傾向がある。これに対し、本発明の音声認識システムでは、分割された音声データの先頭に、通常、文章の最後に配される記号の音声データを付加しているため、発言先頭部分が明確となる。これにより、音声認識エンジン２３側においても、明確にそれが文頭であることが認識でき、文脈解析における迷いを防止することができる。このため、従来の音声認識システムに比して、文頭部分における認識精度を向上させることができ、文字変換精度の更なる向上が図られる。

記号データ付加部２２にて「まる」等の記号音声データが付加された音声データは、１個ずつ音声認識エンジン２３に送出される。この際、発言ファイルは、時間情報と話者情報によってソートされ、各話者別に発言時刻に沿って音声認識エンジン２３に送出される。すなわち、発言ファイル送出部３５は、話者Ａ,Ｂ,Ｃを区別することなく発言ファイルを音声認識エンジン２３に送るのではなく、まず、話者Ａのファイルを送り、その後に話者Ｂのファイルを送る、というように、話者毎にファイルをまとめて各人別に発言ファイルを音声認識エンジン２３に送る。これは、音声認識エンジン２３では特定話者の認識率が高い傾向があり、話者の異なる音声が三々五々連続するよりも、同一人の音声が連続する方が、音声認識エンジン２３における変換精度が高いためである。なお、音声認識エンジン２３における認識率向上のため、文字変換処理前に、各話者の声の特徴をシステムに登録し学習させておくことが望ましい。

このように、本発明による音声認識システムでは、複数話者による発言を各話者毎にデバイスを異ならせることにより、各話者毎の音声データとし、さらに、それを発言単位で分割する。そして、発言単位に分割された個々のファイルを１個ずつ音声認識エンジン２３に送出し、音声データの文字化を行う。従って、複数話者の発言が錯綜しても、音声認識エンジン２３上では常に１人の音声データのみが流れ、複数人の音声が混じり合うことによる誤変換や変換不能を回避できる。これにより、正確な音声認識による文字変換が可能となり、音声認識エンジン２３による文字変換精度の向上が図られる。

音声認識エンジン２３に送られた発言ファイルは、音声データが文字化され、発言文字ファイルが作成される。発言文字ファイルは各話者の各発言毎に作成され、文字化された発言のテキストファイルと、話者情報及び時間情報、対応するWAVEファイル名が格納される。発言文字ファイルは記号削除部２４に送られ、ここで、先に付加した記号音声データに相当する記号（「。」や「．」等）をテキストファイルの先頭から削除する。記号が削除された発言文字ファイルは、発言文字ファイル保存部２５に保存され、その後、発言文字ファイルソート部２６に送られる。発言文字ファイルソート部２６では、各発言文字ファイル内の時間情報に基づいて、発言時刻順に発言文字ファイルを並び換える。すなわち、話者が誰であるかにかかわらず、発言文字ファイルを時系列に再配列し、データ出力部１３に送出する。

データ出力部１３からデータ表示部１７に送られた発言文字ファイルは、そのテキストファイルの内容（発言内容）が時系列でモニタ３等に表示される。テキストファイルは、データ出力部１３にてHTML変換され、データ表示部１７にHTMLファイルとして書き出される。その際、データ出力部１３は、発言文字ファイル内のデータから発言者名を取得し、それをデータ表示部１７の表示内の発言者欄に書き込む。また、発言内容を直接聞くことができるように、各発言のWAVEファイル名を取得して表示内にリンクを張る。

このように、当該音声認識システムにて取得された音声データは、個々の発言として文字化され、発言時間順にモニタ３等に表示される。この際、モニタ３上では、発言内容を追加・修正等することができ、その際、実際の音声を参照することもできる。修正等を行った発言は適宜保存され、プリンタ４を用いてそれを印刷することもできる。さらに、前述のように、ＤＶＤ等の外部メディアに保存することも可能である。

次に、本発明による音声認識システムを用いた議事録作成処理について、具体例に基づいて説明する。当該処理は、ＲＯＭ部１５ａに格納された音声認識プログラムを実行することによって実施される。図５は会議中における話者Ａ,Ｂ,Ｃの発言状態を示す説明図であり、図中の斜線部分が各話者による発言時間である。図５に示すように、当該会議は9:00から開始され、話者Ａが9:02'05''〜9:03'15''の間、話者Ｂが9:03'18''〜9:04'30''の間に発言を行っている。議事録作成処理では、音声認識システムにより、「録音」→「文字化」→「編集」の３ステップが実行され、会議の開始に伴って、まず会議での発言が録音され音声データ保存部３１にWAVEファイルにて保存される。そして、会議終了後、ユーザーのＰＣ操作により、音声認識による文字変換と議事録作成が行われる。

このような発言状態の場合、従来の音声認識システムでは、発言が重複する図中Ｘ１,Ｘ２のような部分に関しては、音声認識エンジンによって正確な文字変換を行えなかった。つまり、Ｘ１ではＡとＣ、Ｘ２ではＡとＢの発言が輻輳し、意味不明な発言しか示されなかった。これに対し、本発明による音声認識システムでは、話者毎にWAVEファイルを作成し、それを発言単位で分割して音声認識エンジン２３に送るので、音声認識エンジンの性能を遺憾なく発揮でき、Ｘ１,Ｘ２部分の発言も正確に文字変換することが可能となる。

そこで、当該音声認識システムでは、ユーザーから指示が出されると、音声データ分割部３２は、まず、制御部１４の指示に基づき、音声データ保存部３１に保存されたWAVEファイルを無音部分にて分割する。分割した音声データには、発言ファイル作成部３３にて、話者情報と共に時間情報が付与され発言ファイルが作成される。図６は、図５の発言に対する発言ファイルを示す説明図であり、(a),(b),(c)はそれぞれ話者Ａ,Ｂ,Ｃに対応している。図６に示すように、発言ファイル作成部３３では、話者名と発言開始時間及び発言経過時間の情報が含まれた発言ファイルが形成され、例えば、9:02'05''〜9:03'15''の間のＡの発言については、ファイルA0001が形成される。なお、時間情報は、実際には前述のように累積msにて付与されるが、ここでは、図５との対応やモニタ３での表示に対応して時刻表示としている。

発言ファイルは発言ファイル保存部３４に保存され、発言ファイル送出部３５から「ドラゴンスピーチ」等の音声認識エンジン２３に送られる。その際、図６(a)→(b)→(c)のように、発言ファイルは各話者別に送られる。これにより、音声認識エンジン２３によって発言が文字化され、話者情報及び時間情報と共に発言文字ファイルとして発言文字ファイル保存部２５に保存される。その際、発言ファイルは、各話者毎に個別に作成され、他の話者の発言が混入していないため、Ｘ１,Ｘ２のような発言重複部分が存在しても、認識不能となることがなく、正確な文字変換が実行される。

その後、発言文字ファイルは、発言文字ファイルソート部２６に送られ、時間情報に基づき時系列に並び換えられる。図７は、時系列に並び換えられた発言文字ファイルを示す説明図である。図７に示すように、ここでは、発言文字ファイルは、発言開始時刻順に並べられる。時系列に配列された発言文字ファイルは、データ出力部１３からデータ表示部１７に送られる。図８はデータ表示部１７における表示の一例であり、(a)はHTMLファイルの表示例、(b)はテキストファイルの表示例を示している。

図８(a)では、データ出力部１３から出力されたHTMLファイルにより、時系列に発言者名と発言内容が表示される。また、画面上には、各発言のWAVEファイルとリンクした音声再生ボタン４１が表示される。音声再生ボタン（音声出力再生表示）４１をクリックすると、その発言に対応するWAVEファイルが再生され、発言を直接聴取することができる。図８(b)では、発言文字ファイルのテキストデータにより、時系列に発言者名と発言時刻及び発言内容が表示される。図８(b)の場合、各発言は、ＰＣ中の「メモ帳」（商品名）等のテキストエディタにて表示され、その内容を適宜加筆・修正することができる。

一方、当該システムを用いた議事録作成サポートシステムには、修正用のエディタも搭載されており、それを用いて発言内容の修正を行うことも可能である。図９は、修正用エディタの表示画面の一例を示す説明図であり、図９の表示画面では、右ウインドウにて発言全体を俯瞰し、左ウインドウにて各発言を一話ずつ修正できるようになっている。画面の右ウインドウは、時系列にて発言を表示する議事録画面（時系列表示部）４２となっており、会議中の全発言が表示される。一方、左ウインドウは、編集画面（発言修正部）４３となっており、各話者の発言が発言毎に表示される。

図９では、発言者Ｂによる9:03'18''からの発言が編集画面４３に表示されており、発言内容は、キーボード４等を用いて加筆・修正することができる。編集画面４３の表示は、編集画面４３の下方に設けられた発言切換ボタン４４をクリックすることにより、次発言や前発言に切り替えることができる。編集後、全テキスト更新ボタン４５をクリックすると、当該発言は修正後の状態で更新保存される。また、音声再生ボタン４６をクリックすることにより、発言内容を再生することもでき、発言を直接聞きながら、議事録の修正を行うことができる。この場合、音声再生中に、誤認識の箇所でクイック補正ボタン４７をクリックすると、別の変換候補が表示され、修正履歴は自動的に学習され次回からの認識率向上が図られる。

修正された議事録は、HTML生成ボタン４８をクリックすることにより、改めてHTMLデータとして保存される。この場合、HTMLデータや音声データは、リームーバルメディア５にデジタル記録することができ、テープや紙に比して保存に要する場所を大幅に削減することができる。

このように、当該システムを使用して議事録を作成すれば、従来のテープ起こしに比して数倍のスピードで議事録を作成することが可能となる。また、各種のボタンをクリックするだけで諸作業を行うことができ、操作が簡単でパソコン初心者でもすぐに操作することができる。従って、議事録作成に要する作業負荷が大幅に軽減され、人件費や外注費などのコスト削減に大きく寄与することが可能となる。さらに、議事録作成を外注する場合の情報漏洩リスクを回避でき、個人情報等も的確に秘守することが可能となる。

本発明は前記実施例に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
例えば、前述の実施例では、１台のＰＣにマイクロフォンを接続した構成となっているが、複数台のＰＣを用いて当該システムを構成することも可能である。その場合、例えば、ある１台のＰＣをリモートとし、リモートＰＣ側には、各ローカルＰＣに対応した特定のフォルダを作成し、ローカルＰＣの録音ファイルはそのフォルダ内に格納するようにしても良い。その際、それぞれのローカルＰＣで録音された録音ファイルには、ファイルの保存場所であるリモートＰＣ上の時刻が付与されるので、ＰＣ同士で時刻合わせをしておく必要がない。

また、複数台のＰＣを用いる場合、各ＰＣにて録音を行い音声データをリモートＰＣに集めて文字化する構成のみならず、各ＰＣ毎に音声認識エンジンを用いて音声データを文字化し、文字データをリモートＰＣ側に集めるようにしても良い。この場合、分割された音声データや文字データには、話者情報と時間情報が付随しているため、各ＰＣにて並列処理を行っても、データが重複するなどの不都合はない。なお、複数台のＰＣを使用する場合の時刻合わせについては、上述した(1)リモートＰＣ上の時刻を共有する方法の他に、(2)１台のＰＣを基準とし、そこからの時刻のずれを取得して後で補正する、(3)タイムサーバを用いて各ＰＣの時刻を常に正確に設定しておく等の方法もある。

また、音声入力手段が接続されるインターフェース端子は、ＵＳＢポートには限定されず、サウンドカードやネットワーク端子であっても良い。ネットワーク端子を使用した場合、ＬＡＮやインターネット等によって接続された他のＰＣ等を介して、遠隔地からの音声入力が可能となり、当該システムを遠隔会議に適用することが可能となる。なお、時間情報が付属している音声データであれば、ＩＣレコーダ等に録音された音声も使用可能である。なお、前述の実施例では、３人の話者による会議を想定し、マイクロフォンを３個使用したシステムについて述べたが、マイクロフォンの使用個数に実装上の制限はなく、ハードウエアの能力次第で何個でも使用することができる。

さらに、前述の実施例では、音声認識エンジン２３による文字変換の後に、発言文字ファイルをソートして時系列に配列しているが、発言ファイルを時系列にソートした後、音声認識エンジン２３に掛けても良い。但し、前述のように、音声認識エンジン２３では、話者毎に文字変換を行った方が、異なる話者の音声が順不同に連続する場合よりも変換精度が高いため、時系列のソートは、音声認識エンジン２３による文字変換の後に実行した方が好ましい。

加えて、前述のシステムでは、記号データ付加部２２や記号削除部２４を省くことも可能である。また、記号データ付加部２２や記号削除部２４による処理は、話者情報や時間情報を付加せずに音声認識を行うシステムにも適用できる。

一方、議事録の表示形態は図８,９のような形態には限定されない。例えば、前述のＸ１,Ｘ２のような複数話者が重複して発言しているような場面では、発言を左右に並列表示するなどして、発言が重なっていることを視覚的に表示しても良い。また、全く同時に発言を開始した場合も同様に並列表示しても良い。なお、図８,９の表示では、完全同時の発言は、マイクロフォンのポート番号の若い順など、適宜、優先順位を決めて表示が行われる。

前述の実施例では、本発明の音声認識システムを会議の議事録作成処理に適用した例を示したが、その用途は会議には限定されず、例えば、採用面接の記録作成や、インタビュー・対談の記録などにも適用できる。また、会議の種類も、日常的に行われる会議のみならず、商法で記録を残すことが義務付けられている取締役会の議事録や、議会議事録、英語等の外国語による国際会議の議事録作成にも適用できる。外国語による議事録作成に際しては、翻訳エンジンとの協働も可能である。

本発明の一実施例である音声認識システムの全体構成を示す説明図である。図１の音声認識システムにおけるＰＣの構成を示すブロック図である。発言データ抽出部の構成を示すブロック図である。発言データ抽出部内における処理を模式的に示した説明図である。会議中における話者Ａ,Ｂ,Ｃの発言状態を示す説明図であり、図中の斜線部分が各話者による発言時間である。図５の発言に対する発言ファイルを示す説明図であり、(a),(b),(c)はそれぞれ話者Ａ,Ｂ,Ｃに対応している。時系列に並び換えられた発言文字ファイルを示す説明図である。データ表示部における表示の一例であり、(a)はHTMLファイルの表示例、(b)はテキストファイルの表示例を示している。修正用エディタの表示画面の一例を示す説明図である。

符号の説明

１ａ〜１ｃマイクロフォン（音声入力手段）
２パーソナルコンピュータ（電子計算機）
３モニタ（発言表示手段）
４キーボード
５リームーバルメディア
６プリンタ
１１音声入力部
１２音声認識部
１３データ出力部
１４制御部
１５メモリ部
１５ａＲＯＭ部
１５ｂＲＡＭ部
１６ａ〜１６ｃＵＳＢポート（インターフェース端子）
１７データ表示部
２１発言データ抽出部
２２記号データ付加部（記号データ付加手段）
２３音声認識エンジン
２４記号削除部（記号削除手段）
２５発言文字ファイル保存部（発言文字ファイル保存手段）
２６発言文字ファイルソート部（発言文字ファイルソート手段）
２７発言音声出力部（発言音声出力手段）
３１音声データ保存部（音声データ保存手段）
３２音声データ分割部（音声データ分割手段）
３３発言ファイル作成部（発言ファイル作成手段）
３４発言ファイル保存部（発言ファイル保存手段）
３５発言ファイル送出部（発言ファイル送出手段）
４１音声再生ボタン（音声出力再生表示）
４２議事録画面（時系列表示部）
４３編集画面（発言修正部）
４４発言切換ボタン
４５全テキスト更新ボタン
４６音声再生ボタン
４７クイック補正ボタン
４８ HTML生成ボタン

Claims

音声入力手段より入力された音声を、話者を特定する話者情報と共に、所定形式の音声データとして保存する音声データ保存部と、
前記音声データを所定条件下にて分割する音声データ分割部と、
分割された前記音声データに所定の時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成部と、
前記発言ファイルを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする音声認識システム。
請求項１記載の音声認識システムにおいて、前記音声データ分割部は、前記音声データにおいて所定音量以下の状態が所定時間以上継続した場合に前記音声データを分割することを特徴とする音声認識システム。
請求項１または２記載の音声認識システムにおいて、前記発言ファイル送出部は、前記発言ファイルを前記話者別に前記音声認識エンジンに対し送出することを特徴とする音声認識システム。
請求項１〜３の何れか１項に記載の音声認識システムにおいて、前記時間情報は、前記話者の発言開始時刻を含むことを特徴とする音声認識システム。
請求項１〜４の何れか１項に記載の音声認識システムにおいて、前記音声認識システムは前記音声入力手段が接続される音声入力部を備え、前記音声入力手段は前記話者毎に個別に設けられると共に、各前記音声入力手段はそれぞれ前記音声入力部の異なるインターフェース端子に接続されることを特徴とする音声認識システム
請求項１〜５の何れか１項に記載の音声認識システムにおいて、前記音声認識システムは、前記音声認識エンジンによって文字化された各発言の文字データが格納された発言文字ファイルを、前記時間情報に基づいて、時間経過に沿って配列する発言文字ファイルソート部を有することを特徴とする音声認識システム。
請求項１〜６の何れか１項に記載の音声認識システムにおいて、前記音声認識システムは、前記発言ファイル中の音声データを音声信号として出力する発言音声出力部を有することを特徴とする音声認識システム。
請求項７記載の音声認識システムにおいて、前記音声認識システムは、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を有すると共に、前記発言表示手段の表示中に、前記文字データと対応した発言の音声信号を前記発言音声出力部から出力させる音声出力再生表示を設けることを特徴とする音声認識システム。
請求項１〜８の何れか１項に記載の音声認識システムにおいて、前記音声認識システムは、前記発言文字ファイル中の各発言の文字データを表示する発言表示手段を有すると共に、前記発言表示手段には、前記各発言の文字データを時間経過に沿って表示する時系列表示部と、前記時系列表示部中の各発言を抽出表示し、該発言内容を任意に修正可能な発言修正部が表示可能なことを特徴とする音声認識システム。
音声入力手段より入力された音声を所定形式の音声データとして保存する音声データ保存部と、
前記音声データを所定条件下にて分割する音声データ分割部と、
分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加部と、
前記記号が付加された音声データを音声認識エンジンに対し送出する発言ファイル送出部とを有することを特徴とする音声認識システム。
請求項１０記載の音声認識システムにおいて、前記記号付加部は、分割された前記音声データの先頭に、通常、文章の最後に配される記号の音声データを付加することを特徴とする音声認識システム。
請求項１０又は１１記載の音声認識システムにおいて、前記音声認識システムは、前記音声認識エンジンによって文字化された前記音声データの文字データから、前記記号に相当する文字データを削除する記号削除部を有することを特徴とする音声認識システム。
音声入力手段から入力された音声を文字データに変換するために、コンピュータを、
話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、
前記音声データを所定条件下にて分割する音声データ分割手段と、
分割された前記音声データに発言開始時刻を含む時間情報を付加し、該時間情報と共に前記音声データを格納した発言ファイルを作成する発言ファイル作成手段、
として機能させるための音声認識プログラム。
音声入力手段から入力された音声を文字データに変換するために、コンピュータを、
話者を特定する話者情報と共に前記音声を所定形式の音声データとして保存する音声データ保存手段と、
前記音声データを所定条件下にて分割する音声データ分割手段と、
分割された前記音声データの先頭に所定の記号の音声データを付加する記号データ付加手段、
として機能させるための音声認識プログラム。