JP2018106148A

JP2018106148A - 多重話者音声認識修正システム

Info

Publication number: JP2018106148A
Application number: JP2017225548A
Authority: JP
Inventors: アン，ムンハック; Munhak An
Original assignee: SORIZAVA CO Ltd
Current assignee: SORIZAVA CO Ltd
Priority date: 2016-12-12
Filing date: 2017-11-24
Publication date: 2018-07-05
Anticipated expiration: 2037-11-24
Also published as: CN108231065A; JP6463825B2; KR101818980B1; US20180182396A1; US10276164B2

Abstract

【課題】多重話者に対して音声認識を行う場合、発言した話者を簡単な方法で判別し、音声認識されたテキストを容易に修正するための多重話者音声認識修正システムを提供する。【解決手段】多重話者音声認識修正システム６００は、複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する音声信号検出部と１００、音声信号検出部１００からそれぞれの音声セッションを伝達されてそれぞれのテキストに変換する音声認識部２００と、音声認識部２００から音声認識されたそれぞれのテキストを伝達されて音声信号が入力される時点の順に羅列して表示し、音声認識されたテキストの修正のための情報を入力されるテキスト修正部３００とを含む。【選択図】図１

Description

本発明は、音声認識修正システムに関し、より詳細には、多重話者に対して音声認識を行う場合、発言した話者を簡単な方法で判別し、音声認識されたテキストを容易に修正するための多重話者音声認識修正システムに関する。

音声認識技術は、コンピュータがマイクのような音声センサーを介して得た音響学的信号を単語や文章に変換させる技術をいう。

特許文献１には、音声認識に対する「移動通信端末の会議録作成方法」について開示している。

特許文献１に開示された移動通信端末の会議録作成方法は、テキストファイルを閲覧するためのディスプレイ部；外部から複数の話者の音声を入力されるマイクロホン部；話者の音声情報およびこれに対応する話者情報を保存する保存部；入力された音声の特定の部分を録音する音声録音部と、録音された音声ファイルを周波数帯域を基準として話者別に分離する音声分離部と、分離した音声ファイルとあらかじめ保存された話者の音声情報との一致可否を判断し、該判断結果、分離した音声ファイルと前記あらかじめ保存された話者の音声情報とが一致する場合、話者情報をもとに前記分離した音声ファイルをテキストファイルに変換する音声認識部と、変換されたテキストファイルの保存、閲覧および送信を管理するファイル管理部とを備える制御部；および変換されたテキストファイルを他のユーザに送信する無線送受信部；を含み、制御部は、ディスプレイ部を介して変換されたテキストファイルが話者情報を基準として区分される複数の話者間の時系列的な対話情報形態でディスプレイされるように制御する。

しかしながら、前記移動通信端末の会議録作成方法は、音声ファイルの周波数帯域を基準として話者を分離する複雑なアルゴリズムを通じて話者を判別しなければならないという問題点があった。

このような問題点を解決するために、特許文献２には、簡単な方法で複数の話者を判別できる「会議録管理装置」を開示している。

特許文献２に開示された会議録管理装置は、多数のマイクロから入力された音声信号から話者を判別するが、基準音量と比較した各マイクの音量設定の水準に応じて、各マイクロから入力された音声信号の音量を基準音量水準に調整して正規化し、正規化した音声信号から話者を判別する話者判別部と、話者判別部により判別された話者の音声信号を保存する音声信号処理部と、会議録を生成し、生成した会議録に話者判別部により判別された話者の音声信号から認識される話者の発言内容をテキストに変換して会議録に記録する会議録処理部と、会議録処理部により生成された会議録を保存する会議録保存部とを含む。

すなわち前記会議録管理装置は、複数のマイクを各話者に具備させて、簡単な方法で話者を判別できる内容を開示している。

なお、音声認識は、音声認識エンジンを保有している音声認識関連業者を介して代理実行される。このような音声認識エンジンは、入力される音声の時間を通じて費用を精算する。

この際、前述した会議録管理装置のように、複数のマイクを介して、各マイクで入力されるすべての音声を伝達する場合、音声認識費用が増加すると共に、データ交換を行うに際して、データの肥大化に伴う問題点があった。

韓国特許公開第２００８−００３７４０２号公報韓国特許公開第２０１４−００７７５１４号公報

したがって、本発明の目的は、多数の話者に対して音声認識を行うに際して、発言した話者を簡単な方法で判別しつつ、低費用で音声認識を行うことができる多重話者音声認識修正システムを提供することにある。

また、本発明の他の目的は、多数の話者に対して音声認識を行うに際して、音声認識されたテキストを容易に修正できる多重話者音声認識修正システムを提供することにある。

本発明による多重話者音声認識修正システムは、複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、前記音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する音声信号検出部と、前記音声信号検出部からそれぞれの音声セッションを伝達されてそれぞれのテキストに変換する音声認識部と、前記音声認識部から音声認識されたそれぞれのテキストを伝達されて、前記音声信号が入力される時点の順に羅列して表示し、音声認識されたテキストの修正のための情報を入力されるテキスト修正部とを含む。

本発明による多重話者音声認識修正システムにおいて、前記音声セッションは、時間情報およびマイク識別情報を含むことを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記マイク識別情報を変更するための話者情報を入力され、時間帯別に前記話者情報と音声認識されたテキストを表示することを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記音声認識検出部から前記音声セッションを伝達されて、前記音声認識信号が入力される時点の順に合成する音声合成部をさらに含むことを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声合成部から合成された音声を前記音声認識されたテキストと共に出力することを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記複数の話者を撮影した映像を出力し、前記映像に各々の話者を識別できる話者タグを表示することを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声認識されたテキストを表示しつつ、表示されるテキストの話者情報とマッチングされる話者タグを識別するように強調するリアルタイム入力モードと、音声認識されたテキストの修正のための情報が入力されると、修正されるテキストの話者情報とマッチングされる話者タグを識別するように強調する修正モードと、各話者タグに対して選択信号が入力されると、選択された話者タグとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力する話者別プレイモードとを含むことを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声認識されたテキストの修正のための情報を入力されると、テキストの表示を一時停止し、修正を完了した後、既定の時間だけ以前に戻ってテキスト表示を再開することを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声認識部から伝達されたテキストに対して語尾の有無を判断して、文章記号を表示することを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、各マイク識別情報に該当する話者の特徴情報を前記音声認識部にあらかじめ伝達し、前記音声認識部は、前記テキスト修正部から伝達された前記特徴情報を反映して修正されたテキストを前記テキスト修正部に伝達することを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記特徴情報は、方言、外来語、感動詞または嘆詞を含み、前記音声認識部は、前記方言を標準語に変換したり、外来語を固有語に変換したり、話者の固有習慣である感動詞または嘆詞を削除して前記テキスト修正部に伝達することを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記複数の話者の各々に音声認識部から音声認識された結果と前記テキスト修正部から修正された結果を表示する検収部をさらに含むことを特徴とする。

本発明による多重話者音声認識修正システムにおいて、前記検収部は、修正のための情報を入力されたり、検収完了信号を入力されて、前記テキスト修正部に伝達することを特徴とする。

本発明による多重話者音声認識修正システムは、複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出し、検出された音声セッションのみを音声認識部がテキストに変換を行うことによって、発言した話者を簡単な方法で判別しつつ、低費用で音声認識を行うことができる。

また、本発明による多重話者音声認識修正システムは、音声認識されたテキストを修正するテキスト修正部が、話者が発言した音声を音声認識されたテキストと共に出力することによって、修正者が明確に話者の音声を認知した状態で修正できる。

図１は、本発明の実施形態に係る多重話者音声認識修正システムの構成を示すブロック図である。図２は、本発明の実施形態に係る音声信号検出部の音声信号検出を説明するための図である。図３は、本発明の実施形態に係る音声合成部の音声合成過程を示す模式図である。図４は、本発明の実施形態に係る検収部に表示される画面を示す例示図である。図５は、本発明の実施形態に係るテキスト修正部の構成を示すブロック図である。図６は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。図７は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。図８は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。

下記の説明では、本発明の実施形態を理解するのに必要な部分だけが説明され、その他の部分の説明は、本発明の要旨を不明にしないように省略されることを留意しなければならない。

以下で説明される本明細書及び請求範囲に使用された用語や単語は、通常的または辞書的な意味に限定して解釈されてはならず、発明者は、自分の発明を最も最善の方法で説明するための用語の概念として適切に定義できるという原則に基づいて、本発明の技術的思想に符合する意味と概念として解釈されなければならない。したがって、本明細書に記載された実施形態と図面に示された構成は、本発明の最も好ましい一実施形態に過ぎず、本発明の技術的思想をすべて代弁するものではないので、本出願時点においてこれらを代替できる多様な均等物と変形例があり得ることを理解しなければならない。

以下、添付の図面を参照して本発明の実施形態をより詳細に説明する。

図１は、本発明の実施形態に係る多重話者音声認識修正システムの構成を示すブロック図であり、図２は、本発明の実施形態に係る音声信号検出部の音声信号検出を説明するための図である。

図１および図２を参照すると、本発明の実施形態に係る多重話者音声認識修正システム６００は、音声信号検出部１００と、音声認識部２００と、テキスト修正部３００とを含む。

音声信号検出部１００は、複数のマイク１からそれぞれ音声信号を入力される。ここで、複数のマイク１は、複数の話者の各々が具備できる。例えば、第１マイクは、第１話者が具備でき、第２マイクは、第２話者が具備できる。すなわち複数の第１マイクを各々の話者が具備することによって、別途の話者を識別するためのアルゴリズムなしに、それぞれのマイクロから入力される音声信号を区分して話者を判別できる。

また、音声信号検出部１００は、複数のマイク１から音声信号がそれぞれ入力されると、それぞれの音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する。すなわち音声信号検出部１００は、図２に示されるように、マイク１からそれぞれ入力されるアナログ信号をデジタル信号に変更し、音声信号が入力される時点から入力が中止される時点を判別して検出することができる。ここで、音声信号の中止可否は、既定の時間以上で音声信号が入力されない場合、一つのセッションとして認知できる。

このように音声信号検出部１００は、音声セッションが検出されると、音声セッションにマイクを識別できるマイク識別情報と時間情報を含ませることができる。音声信号検出部１００は、検出された音声セッションを音声認識部２００とテキスト修正部３００に伝達できる。ここで、音声信号検出部１００は、マイク１から入力される信号から音声を入力されない時間は切り出し、実質的に音声を入力される時間の音声信号のみを音声認識部２００またはテキスト修正部３００に伝達できる。

なお、音声信号検出部１００は、生成した音声セッションを音声認識信号が入力される時点の順に合成して音声認識部２００に伝達できる。例えば、音声信号検出部１００は、複数のマイク１で音声が重なる時点が発生する場合、音声信号が先に入力される時点を優先順位として定めて、先に入力される音声信号の末尾に次に入力される音声信号を貼り付けて合成して、一つの音声信号の形態で音声認識部２００に伝達できる。

音声認識部２００は、音声信号検出部１００から複数のマイク１でそれぞれ入力される複数の音声セッションをそれぞれ伝達されて、テキストの形態に変換する。音声認識部２００は、音声セッションが入力されると、音声セッションから音声認識に必要な特徴ベクターを抽出する。ここで、特徴ベクターは、音声学的特性は十分に示し、その他の要素、すなわち背景雑音、話者の差異、発音態度などには鈍感に設定される。その後、音声認識部２００は、特徴ベクターが保存された単語モデル、すなわち各単語の音声学的特徴またはそれより短く音素単位の音響モデルとの比較を通じて可能な単語に対する場合を抽出するパターン分類過程を行う。

また、音声認識部２００は、パターン分類過程を経た結果を一連の候補単語または候補音素の形態で文章単位の検索を実施する。ここで、音声認識部２００は、候補単語または候補音素の情報に基づいて文法構造、全体的な文章文脈、特定の主題への符合可否を判断して、どのような単語や音素が最も適切であるかを判断する。音声認識部２００は、このような過程を経て完成されたテキストをテキスト修正部３００に伝達できる。

テキスト修正部３００は、音声認識部２００から音声認識されたテキストを伝達される。この際、テキスト修正部３００は、音声認識部２００からそれぞれの音声セッションを音声認識したそれぞれのテキストを伝達され、音声セッションに含まれた時間情報とマイク識別情報を用いて音声信号が入力される時点の順に羅列し、各テキストにマッチングされるマイク識別情報を含ませることができる。

また、テキスト修正部３００は、マイクを各々具備している複数の話者に対する映像と、複数の話者が発言した音声を聴覚的に再生して修正者に提供できる。また、テキスト修正部３００は、修正者から音声認識されたテキストを修正するための情報を入力され、入力された情報を用いてて誤認識されたテキストを修正できる。

このように、本発明の実施形態に係る多重話者音声認識修正システム６００は、複数の話者の各々が具備する複数のマイク１からそれぞれ音声信号が入力されると、音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出し、検出された音声セッションのみを音声認識部がテキストに変換を行うことによって、発言した話者を簡単な方法で判別して低費用で音声認識を行うことができる。

また、本発明の実施形態に係る多重話者音声認識修正システム６００は、音声認識されたテキストを修正するテキスト修正部３００が、話者が発言した音声を音声認識されたテキストと共に出力することによって、修正者が明確に話者の音声を認知した状態で修正できる。

なお、多重話者音声認識修正システム６００は、音声信号検出部１００から検出された音声セッションを合成する音声合成部４００と、複数の話者の各々に音声認識部２００から音声認識された結果とテキスト修正部３００から修正された結果を表示する検収部５００とをさらに含むことができる。

なお、図３は、本発明の実施形態に係る音声合成部の音声合成過程を示す模式図であり、図４は、本発明の実施形態に係る検収部に表示される画面を示す例示図である。

図１〜図４を参照すれば、音声合成部４００は、音声認識検出部１００から音声セッションを伝達されて、音声認識信号が入力される時点の順に合成して、テキスト修正部３００に伝達できる。例えば、音声合成部４００は、複数のマイク１で音声が重なる時点が発生する場合、音声信号が先に入力される時点を優先順位として定めて、先に入力される音声信号の末尾に次に入力される音声信号を貼り付けて合成することができる。

すなわち図４に示されるように、第１マイクでｔ０で音声信号が入力されて、ｔ１で音声信号が中止される場合、ｔ０〜ｔ１は、一つの音声セッションになり得る。ここで、第２マイクで他の音声セッションｔ２〜ｔ３が入力され、第３マイクでさらに他の音声セッションｔ４〜ｔ５が同時間に入力されると、重なる音声の部分が発生する。

音声合成部４００は、このような重なる音声セッションを、音声信号が先に入力される時間の順に、ｔ０〜ｔ１、ｔ４〜ｔ５およびｔ２〜ｔ３の順に合成して、テキスト修正部３００に伝達できる。

ここで、テキスト修正部３００は、音声合成部４００から合成された音声を音声認識されたテキストと共に出力できる。

検収部５００は、複数の話者の各々に音声認識部２００から音声認識された結果とテキスト修正部３００から修正された結果を表示できる。例えば、検収部５００は、モニターのようなディスプレイ装置と、キーボードなどのような入力装置で構成され得る。例えば、検収部５００は、音声認識されたテキストを表示し、表示されたテキストのうちテキスト修正部３００により修正された部分を識別可能に表示することによって、話者が音声認識された結果を直接見て検収できるようにすることができる。ここで、検収部５００は、話者から修正のための情報を入力されて直接テキストを修正したり、検収完了信号を入力されてテキスト修正部３００に伝達することができる。

以下、本発明の実施形態に係るテキスト修正部について詳細に説明する。

図５は、本発明の実施形態に係るテキスト修正部の構成を示すブロック図であり、図６〜図８は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。

図５〜図８を参照すると、本発明の実施形態に係るテキスト修正部３００は、入力部１０、表示部２０、保存部３０、音声再生部４０、通信部５０および制御部６０を含む。

入力部１０は、数字および文字情報などの多様な情報を入力され、各種機能の設定およびテキスト修正部３００の機能制御と関連して入力される信号を制御部６０に伝達する。例えば、入力部１０は、キーパッド、マウス、ジョイステックなどのような入力装置であってもよく、好ましくは、間違って認識された単語または文章を早く修正できる速記キーボードであってもよい。このような入力部１０は、修正者から音声認識されたテキストの修正のための情報を入力され得る。ここで、修正者は、入力部１０を介して音声認識されたテキストに修正のためのカーソルを表示部２０上で移動させ、修正のための情報、すなわち修正された単語を入力して音声認識されたテキストを修正できる。

表示部２０は、テキスト修正部３００の機能実行中に発生する一連の動作状態および動作結果などに対する情報を表示する。また、表示部２０は、テキスト修正部３００のメニューおよびユーザが入力したユーザデータなどを表示できる。ここで、表示部２０は、液晶表示装置（ＬＣＤ、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、超薄膜液晶表示装置（ＴＦＴ−ＬＣＤ、ＴｈｉｎＦｉｌｍＴｒａｎｓｉｓｔｏｒＬＣＤ）、発光ダイオード（ＬＥＤ、ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード（ＯＬＥＤ、ＯｒｇａｎｉｃＬＥＤ）、アクティブマトリクス型有機発光ダイオード（ＡＭＯＬＥＤ、ＡｃｔｉｖｅＭａｔｒｉｘＯＬＥＤ）、レチナディスプレイ（ＲｅｔｉｎａＤｉｓｐｌａｙ）、フレキシブルディスプレイＦｌｅｘｉｂｌｅｄｉｓｐｌａｙ）および３次元（３Ｄｉｍｅｎｓｉｏｎ）ディスプレイなどで構成され得る。

このような表示部２０は、第１〜第６表示窓２１、２２、２３、２４、２５、２６を含むことができる。

まず、第１表示窓２１は、マイクを着用している複数の話者に対する映像を表示できる。ここで、第１表示窓２１は、映像の中で発言する話者を認知するための話者タグ２１ａを表示できる。ここで、話者タグ２１ａは、話者の頭の上や話者を認知できる位置に表示され得る。

第２表示窓２２は、リアルタイム音声認識されるテキストを表示でき、第３表示窓２３は、第２表示窓２２からリアルタイム音声認識されるテキストを時間帯別に話者情報と共に表示できる。

第３表示窓２３は、第２表示窓２２からリアルタイム音声認識されるテキストを時間帯別に話者情報と共に表示し、チェック（ＣＨＫ）項目を含んで修正者により修正されたテキストに対してチェック項目に表示できる。

第４表示窓２４は、第３表示窓２３に表示されたテキストを話者別に整理して表示できる。

第５表示窓２５は、前述した音声合成部４００から合成された音声を信号の形態で表示し、修正者が入力部１０を介して所望の音声位置を指定するように支援できる。

第６表示窓２６は、第１および第５表示窓２５で表示される映像および音声を制御し得る多様なメニューを表示できる。例えば、第６表示窓２６は、再生、早送り、録画などのメニューを表示できる。

保存部３０は、テキスト修正部３００の機能動作に必要な応用プログラムを保存する。ここで、保存部３０は、ユーザの要請に応して各機能を活性化する場合、制御部６０の制御下に当該応用プログラムを実行して各機能を提供する。ここで、保存部３０は、各モード、すなわちリアルタイム入力モード、修正モードまたは話者別プレイモードを実行するためのプログラムを保存できる。また、保存部３０は、修正者の修正便宜のための常用単語ＤＢを保存できる。また、保存部３０は、方言、外来語、感動詞または嘆詞を含む特徴情報ＤＢを保存できる。

音声再生部４０は、制御部６０の制御によって音声信号検出部または音声合成部から音声セッションを伝達されて再生して、ユーザが聴取できるようにすることができる。例えば、音声再生部４０は、聴覚的出力のためのスピーカーを含むことができる。

通信部５０は、制御部６０の制御によって各種通信方式を利用してデータを送受信する通信インターフェースを含み、音声信号検出部から音声セッションを伝達されたり、音声認識部から音声認識されたテキストを伝達され得る。また、通信部５０は、検収部から検収されたテキストを伝達され得る。

制御部６０は、音声認識部から音声認識されたそれぞれのテキストを伝達されて、音声信号が入力される時点の順に羅列して第２表示窓２２に表示できる。

このような制御部６０は、音声認識されたテキストを表示しつつ、表示されるテキストの話者情報とマッチングされる話者タグを識別するように強調するリアルタイム入力モードと、音声認識されたテキストの修正のための情報が入力されると、修正されるテキストの話者情報とマッチングされる話者タグを識別するように強調する修正モードと、各話者タグに対して選択信号が入力されると、選択された話者タグとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力する話者別プレイモードとを含む。

リアルタイム入力モードは、制御部６０がリアルタイム音声認識部から音声認識されるテキストを第２表示窓２２に表示し、第１表示窓２１に複数の話者に対する映像を表示できる。この際、第１表示窓２１に音声再生部４０で再生している話者とマッチングされる話者タグ２１ａを識別し得るように表示できる。例えば、制御部６０は、マッチングされる話者タグ２１ａの色を変更させたり、形態を変形させるなど、修正者が識別し得るように表示できる。また、制御部６０は、第２表示窓２２にリアルタイム音声認識されるテキストに該当する話者情報の話者タグ２１ａを識別し得るように表示できる。すなわちリアルタイム音声認識されるテキストを第２表示窓２２に提供すると同時に、音声再生部４０に該当音声セッションの音声を再生し、第１表示窓２１上でマッチングされる話者タグ２１ａを識別し得るように表示できる。なお、制御部６０は、音声認識部から変換されたテキスト内に含まれているマイク識別情報を修正者から入力部１０を介してマッチングされる話者情報に修正して第２表示窓２２に表示できる。このように、制御部６０は、映像が遠く設置される場合、口付きだけでは話者を区分しにくい問題点を解消できる。

修正モードは、修正者から入力部１０を介して修正のための情報が入力されて、音声認識されたテキストを修正するようにできる。すなわち制御部６０は、リアルタイム入力モード状態で修正者から入力部１０により修正のためのカーソル移動を入力され、カーソル移動後、修正のための情報を入力されて、音声認識されたテキストを修正するようにすることができる。この場合、制御部６０は、修正者が、修正しているテキストにマッチングされる話者を認知するようにするために、修正されるテキストの話者情報とマッチングされる話者タグ２１ａを識別するように強調できる。この際、制御部６０は、音声認識されたテキストの修正のための情報を入力されると、テキストの表示を一時停止し、修正を完了した後、既定の時間だけ以前に戻ってテキスト表示を再開させることができる。

話者別プレイモードは、修正者から入力部１０を介して各話者タグ２１ａに対して選択信号を入力され、選択された話者タグ２１ａとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力できる。この際、制御部６０は、第１表示窓２１に選択された話者に対する映像を出力でき、第２表示窓２２に選択された話者に対するテキストを出力し、音声再生部４０に選択された話者に対する音声を出力するように制御できる。

また、制御部６０は、各マイク識別情報に該当する話者の特徴情報を入力部１０を介して入力されて、音声認識部にあらかじめ伝達できる。ここで、特徴情報は、方言、外来語、感動詞または嘆詞を含むことができる。ここで、嘆詞は、「これ、それ、あれ、いざ、いざや、どの、さあ」のような話者の固有習慣になり得る。このような特徴情報は、音声認識部で音声を認識してテキストに変換するに際して、ヒントとして適用され得る。制御部６０は、表示部２０を介して修正者に保存部３０に保存された特徴情報ＤＢを提供できる。例えば、制御部６０は、修正者が特徴情報ＤＢで関西地方の方言を選択した場合、関西地方の方言を標準語に変換するための情報を共に音声認識部に伝達できる。なお、本発明の実施形態では、制御部６０が特徴情報を音声認識部に伝達して音声認識部で標準語変換が行われるように構成されたが、これに限定されず、制御部６０が音声認識部から伝達されたテキストを直接修正するように構成され得る。

また、制御部６０は、音声認識部から伝達されたテキストに対して語尾の有無を判断して、文章記号を表示できる。例えば、制御部６０は、「〜です、〜ます」、「か？」のように文章の語尾に使用する文字の前に他の文字が存在すると、当該文字にマッチングされる文章記号をつけたり、音声セッションが終了した場合、該当する文章記号を表示できる。

なお、本明細書と図面に開示された実施形態は、理解を助けるために特定例を提示したものに過ぎず、本発明の範囲を限定しようとするものではない。ここに開示された実施形態以外にも、本発明の技術的思想に基づく他の変形例が実施可能であることは、本発明の属する技術分野における通常の知識を有する者には自明である。

１マイク
１０入力部
２０表示部
２１第１表示窓
２２第２表示窓
２３第３表示窓
２４第４表示窓
２５第５表示窓
２６第６表示窓
３０保存部
４０音声再生部
５０通信部
６０制御部
１００音声信号検出部
２００音声認識部
３００テキスト修正部
４００音声合成部
５００検収部
６００多重話者音声認識修正システム

Claims

複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、前記音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する音声信号検出部と；
前記音声信号検出部から時間情報およびマイク識別情報を含むそれぞれの音声セッションを伝達されて、それぞれのテキストに変換する音声認識部と；
前記音声信号検出部から前記音声セッションを伝達されて、前記音声信号が入力される時点の順に合成する音声合成部と；
前記音声認識部から音声認識されたそれぞれのテキストを伝達され、前記マイク識別情報を変更するための話者情報を入力され、前記音声信号が入力される時点の順に前記話者情報と音声認識されたテキストを羅列して表示し、前記複数の話者を撮影した映像を出力し、前記映像に各々の話者を識別し得る話者タグを表示し、前記音声合成部から合成された音声を前記音声認識されたテキストと共に出力し、音声認識されたテキストの修正のための情報を入力されるテキスト修正部と；を含み、
前記テキスト修正部は、前記音声認識されたテキストをリアルタイム表示しつつ、表示されるテキストの話者情報とマッチングされる話者タグを識別するように強調するリアルタイム入力モードと、前記リアルタイム入力モードで音声認識されたテキストの修正のための情報が入力されると、修正されるテキストの話者情報とマッチングされる話者タグを識別するように強調する修正モードと、各話者タグに対して選択信号が入力されると、選択された話者タグとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力する話者別プレイモードとを含み、
前記テキスト修正部は、前記音声認識されたテキストの修正のための情報を入力されると、テキストの表示を一時停止し、修正を完了した後、既定の時間だけ以前に戻ってテキスト表示を再開し、
前記テキスト修正部は、各マイク識別情報に該当する方言、外来語、感動詞または嘆詞を含む話者の特徴情報を前記音声認識部にあらかじめ伝達し、
前記音声認識部は、前記テキスト修正部から伝達された前記特徴情報を反映して、前記方言を標準語に変換したり、外来語を固有語に変換したり、話者の固有習慣である感動詞または嘆詞を削除して前記テキスト修正部に伝達することを特徴とする多重話者音声認識修正システム。
前記テキスト修正部は、前記音声認識部から伝達されたテキストに対して語尾の有無を判断して文章記号を表示することを特徴とする請求項１に記載の多重話者音声認識修正システム。
前記複数の話者の各々に音声認識部から音声認識された結果と前記テキスト修正部から修正された結果を表示する検収部；
をさらに含むことを特徴とする請求項１に記載の多重話者音声認識修正システム。
前記検収部は、修正のための情報を入力されたり、検収完了信号を入力されて、前記テキスト修正部に伝達することを特徴とする請求項３に記載の多重話者音声認識修正システム。