JP2021529337A

JP2021529337A - 音声認識技術を利用した多者間対話記録／出力方法及びこのため装置

Info

Publication number: JP2021529337A
Application number: JP2020560337A
Authority: JP
Inventors: キム，サンテ; ファン，ミョンジン; パク，レジン; ジ，チャンジン
Original assignee: Llsollu Co Ltd
Current assignee: Llsollu Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2021-10-28
Also published as: CN112055876A; EP3779971A4; WO2019208860A1; KR20200125735A; EP3779971A1; US20210232776A1

Abstract

本発明の一実施例による多者間音声認識システムによる音声認識及び翻訳方法において、音声が入力されるステップ；前記音声の言語である第１言語を認識するステップ；前記第１言語を基盤とする基本音響モデルを通じて前記音声のテキストを認識するステップ；前記第１言語が出力言語として予め設定された出力言語でない場合、前記認識された音声を前記出力言語に翻訳するステップ；及び前記出力言語で構成された結果を保存及び出力するステップ；を含むことができる。

Description

本発明は自動音声認識システムを利用した多者間対話及び対話録の生成方法及びこれをサポートする装置に関する。

多者間対話システムはコンピューターとネットワークを利用して多者間リアルタイム対話を可能にするシステムである。このような多者間対話システムは、個人の間のコミュニケーションを目的として主に用いられたが、会議などの業務目的でも用いられることができ、対話方式としては文字、音声、映像などがある。

対話の目的が会議や裁判などの業務用である場合、対話内容を要約して対話録を作成したりするが、これは主に手作業で行われる。最近にはこれを自動化しようとする試みがあるが、手作業よりは作業の信頼度／正確度が低下するという問題点がある。そこで、自動的に作成された対話録を録音された対話内容に基づいて再検討する時間及び努力が伴うが、録音された対話内容で特定対話が録音された位置を探すにも多くの時間及び努力が必要となるという問題点が存在する。

また、最近には多者間対話に外国人が参加する場合も増えている。この時、参加者が全部コミュニケーションが不可能な場合、通訳者が必要となるが、会議時間及び費用が増えるという問題がある。

自動音声認識技術は使用者の音声を文字に変換する技術である。この技術は最近になって音声認識率が急激に向上した。しかしながら、発話（ｕｔｔｅｒａｎｃｅ）が重なって発生する場合、正確な発話地点を認識するための技術の発達は今まで充分でない実情である。一般的に音声認識装置は特定時間帯の音声を文字に変換する役割を果たす。即ち、音声認識装置は現時点に発話する人が一人であると仮設して音声を認識する。そこで、二人以上の使用者の発話が重なる場合（即ち、同じ時点に複数の使用者による発話発生）、音声認識装置が重なった発話を全部文字に正確に変換することは今までの音声認識技術では不可能である。そこで、音声認識装置が使用者の音声を正確に認識するためには使用者／話者別に発話を分離する適切な機能が要求される。

また、音声認識の正確度が低下する他の要因として未登録語の問題がある。音声認識装置は予め登録されていない単語は認識することができず、発音のみ類似し、意味は他の単語を提示する場合がある。この問題を解決するために、可能な限り全ての語彙を音声認識装置に登録しておくこともできるが、その場合、音響モデルが大きくなりながら音声認識装置の処理速度が遅くなるという問題が発生する。そこで、音声認識装置の性能を保障するためには未登録語などによる適切な誤認識の解決／処理機能も要求される。

本発明の目的は、多者間対話を翻訳／記録／出力するための正確度の高い音声認識方法及びこのための装置を提案することを目的とする。

本発明で達しようとする技術的課題は、以上で言及した技術的課題に制限されず、言及しなかったまた他の技術的課題は以下の記載から本発明が属する技術分野において通常の知識を有する者に明確に理解され得る。

本発明の一様相は、多者間音声認識システムによる音声認識及び翻訳方法において、音声が入力されるステップ；前記音声の言語である第１言語を認識するステップ；前記第１言語を基盤とする基本音響モデルを通じて前記音声のテキストを認識するステップ；前記第１言語が出力言語として予め設定された出力言語でない場合、前記認識された音声を前記出力言語に翻訳するステップ；及び前記出力言語で構成された結果を保存及び出力するステップ；を含むことができる。

また、前記音声を認識するステップは、前記音声を前記基本音響モデルを通じて前記第１言語のテキストに変換するステップであってもよい。

また、前記出力言語に翻訳するステップは、前記第１言語のテキストを翻訳して前記出力言語のテキストに変換するステップであってもよい。

また、前記出力言語で構成された結果を保存及び出力するステップは、前記出力言語に翻訳された結果をテキスト及び／または音で出力するステップを含むことができる。

また、前記出力言語で構成された結果を前記音で出力するステップは、前記入力された音声と同じ音声で前記出力言語を出力するステップを含むことができる。

また、同じ領域内に前記出力言語を前記音で出力するための音声出力部が複数存在する場合、前記出力言語で構成された結果を前記音で出力するステップは、前記複数の音声出力部の中で前記音を出力する少なくとも一つの音声出力部を選択するステップ；及び前記選択された少なくとも一つの音声出力部のみを通じて前記結果を前記音で出力するステップ；を含むことができる。

また、前記少なくとも一つの音声出力部を選択するステップは、前記複数の音声出力部の中で前記発話者の実際或は仮想の位置と近い順で既設定された個数だけ音声出力部を選択するステップであってもよい。

また、前記音声が複数回入力された場合、前記出力言語で構成された結果を前記テキストで出力するステップは、前記テキストを前記音声の入力ソースを識別するための識別子（Ｉｄｅｎｔｉｆｉｅｒ；ＩＤ）別に区分して前記音声が入力された時間順に出力するステップであってもよい。

また、前記識別子は前記音声が入力された音声入力チャンネル別に互いに異なるように割り当てられることができる。

また、前記識別子は前記出力言語で構成された結果内で選択されることができる。

また、前記出力言語で構成された結果を前記テキストで出力するステップは、前記出力言語で構成された結果で単語、語彙及び／または文章の重要度別に互いに異なる書式が適用されたテキストで出力するステップを含むことができる。

また、前記出力言語で構成された結果を前記テキストで出力するステップは、前記出力言語で構成された結果の中で音声認識信頼度が既設定されたレベル未満の前記単語、前記語彙及び／または前記文章に対して既設定された書式が適用されたテキストで出力するステップをさらに含むことができる。

また、音声認識及び翻訳方法は、前記既設定された書式が適用されたテキストに対する修正テキストが入力されるステップ；及び前記修正テキストで前記既設定された書式が適用されたテキストを取り替えるステップ；をさらに含む音声認識及び翻訳方法。

また、前記出力言語で構成された結果を保存するステップは、前記識別子と前記出力言語で構成された結果を互いに連携して保存するステップをさらに含むことができる。

また、前記音声が入力されるステップは、前記音声が入力される音声入力部別に発話者を区別し、前記発話者別音声を独立したチャンネルで受けるステップに該当することができる。

また、前記既保存された結果を前記音声で出力する場合、前記既保存された結果を出力する間に前記音声が入力されるステップが中断されることができる。

また、音声認識及び翻訳方法は、前記出力された結果の中で核心語及び／または核心文章の選択及び解除を使用者から入力されるステップをさらに含むことができる。

また、音声認識及び翻訳方法は、前記選択された核心語及び／または核心文章を中心に既設定されたアルゴリズムを用いて前記出力言語で構成された結果を要約するステップをさらに含むことができる。

本発明の他の様相は、音声認識システムにおいて、音声が入力される音声入力部と、前記音声の言語である第１言語を認識し、前記第１言語を基盤とする基本音響モデルを通じて前記音声を認識し、前記第１言語が出力言語として予め設定された出力言語でない場合、前記認識された音声を前記出力言語に翻訳するプロセッサと、前記出力言語に翻訳された結果を保存するメモリーと、前記出力言語に翻訳された結果を出力する出力部とを含むことができる。

本発明の実施例によれば、多者間対話システムに音声認識機能を適用して音声及びビデオ対話を全部管理／保存／探索容易な文字に転換可能であるという効果を奏する。

また、本発明の実施例によれば、話者別に発話が区分されて記録され、発話者別に自動的に名前が指定／修正されるので、話者別に対話を確認することができるという効果を奏する。

また、本発明の実施例によれば、使用者はリアルタイムで認識及び翻訳された結果を確認することができるという効果を奏する。

また、本発明の実施例によれば、使用者は記録された対話録のテキストを発話者の音声で聞くことができるという効果を奏する。

また、本発明の実施例によれば、音声認識装置は対話中でもいつでも重要な発話を選定することができ、これを対話録に反映することができるという効果を奏する。

また、本発明の実施例によれば、音声認識装置は誤認識語修正機能を提供して誤認識を処理することができ、その結果音声認識機の結果を補うことができるという効果を奏する。

本発明で得られる効果は以上で言及した効果に制限されず、言及しなかったまた他の効果は以下の記載から本発明が属する技術分野において通常の知識を有する者に明確に理解され得る。

本発明に対する理解に役立つように詳細な説明の一部として含まれる、添付図面は本発明に対する実施例を提供し、詳細な説明とともに本発明の技術的特徴を説明する。

本発明の一実施例による音声認識装置のブロック図である。本発明の一実施例による多者間対話システムを例示する。本発明の一実施例による複数の音声認識装置を含む音声認識システムを例示した図面である。本発明の一実施例による核心語選択方法を例示した図面である。本発明の一実施例による音声認識及び翻訳方法を例示した順序図である。

以下、本発明による好ましい実施形態を添付図面を参照して詳細に説明する。添付図面とともに以下に開示される詳細な説明は本発明の例示的な実施形態を説明するためのものであり、本発明が実施されることができる唯一の実施形態を示すのではない。以下の詳細な説明は本発明の完全な理解を提供するために具体的な詳細事項を含む。しかしながら、当業者は本発明がこのような具体的な詳細事項がなくても実施され得ることを理解すべきである。

いくつかの場合、本発明の概念が曖昧になることを避けるために、公知の構造及び装置は省略されるか、各構造及び装置の核心機能を中心としたブロック図形式で示されることができる。

図１は本発明の一実施例による音声認識装置のブロック図である。

図１を参照すれば、音声認識装置１００は使用者の音声が入力される音声入力部１１０、認識された音声関連多様なデータを保存するメモリー１２０、入力された使用者の音声を処理するプロセッサ１３０、イメージ／映像をディスプレーするディスプレー部１４０及び／または音声を出力する音声出力部１５０を含むことができる。ここで、ディスプレー部１４０及び音声出力部１５０は「出力部」に通称されることができる。

音声入力部１１０はマイクロフォン（ｍｉｃｒｏｐｈｏｎｅ）を含むことができ、使用者の発話（ｕｔｔｅｒａｎｃｅ）された音声が入力されると、これを電気的信号に変換してプロセッサ１３０に出力する。

プロセッサ１３０は音声入力部１１０から受信した信号に音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）アルゴリズムまたは音声認識エンジン（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｅｎｇｉｎｅ）を適用して使用者の音声データを獲得することができる。

この時、プロセッサ１３０に入力される信号は音声認識のためのさらに有用な形態に変換されることができ、プロセッサ１３０は入力された信号をアナログ形態からデジタル形態に変換し、音声の始めと終り地点を検出して音声データに含まれた実際音声区間／データを検出することができる。これをＥＰＤ（ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）という。

そして、プロセッサ１３０は検出された区間内でケプストラム（Ｃｅｐｓｔｒｕｍ）、線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｅｆｆｉｃｉｅｎｔ：ＬＰＣ）、メル周波数ケプストラム（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ：ＭＦＣＣ）またはフィルタバンクエネルギー（ＦｉｌｔｅｒＢａｎｋＥｎｅｒｇｙ）などの特徴ベクター抽出技術を適用して信号の特徴ベクターを抽出することができる。

プロセッサ１３０はデータを保存するメモリー１２０を利用して音声データの終り地点に関する情報及び特徴ベクターを保存することができる。

メモリー１２０はフラッシュメモリー（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ｈａｒｄｄｉｓｃ）、メモリーカード、ロム（ＲＯＭ：Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ラム（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、メモリーカード、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリー、磁気ディスク、光ディスクの中の少なくとも一つの記録媒体を含むことができる。

そして、プロセッサ１３０は抽出された特徴ベクターと訓練された基準パターンとの比較を通じて認識結果を得ることができる。このために、音声の信号的な特性をモデリングして比較する音響モデル（ＡｃｏｕｓｔｉｃＭｏｄｅｌ）と認識語彙に対応する単語や音節などの言語的な順序関係をモデリングする言語モデル（ＬａｎｇｕａｇｅＭｏｄｅｌ）が用いられることができる。

音響モデルはまた認識対象を特徴ベクターモデルに設定してこれを音声データの特徴ベクターと比較する直接比較方法と認識対象の特徴ベクターを統計的に処理して利用する統計方法とに分けられることができる。

単語や音節などの言語的な順序関係をモデリングする言語モデルは、言語を構成する複数の単位の間の順序関係を音声認識で得られた複数の単位に適用することにより、音響的な模倣性を減らして認識のエラーを減少することができる。言語モデルには統計的言語モデルと有限状態オートマン（ＦｉｎｉｔｅＳｔａｔｅＡｕｔｏｍａｔａ：ＦＳＡ）に基盤したモデルがあり、統計的言語モデルにはユニグラム（Ｕｎｉｇｒａｍ）、バイグラム（Ｂｉｇｒａｍ）、トライグラム（Ｔｒｉｇｒａｍ）など単語の連鎖確率が利用される。

プロセッサ１３０は音声を認識するにおいて、上述した方式の中の何れの方式を用いても関係ない。例えば、隠れマルコフモデルが適用された音響モデルを用いることもでき、音響モデルと言語モデルを統合したＮ−ｂｅｓｔ探索法を用いることができる。Ｎ−ｂｅｓｔ探索法は音響モデルと言語モデルを利用してＮ個までの認識結果候補を選択した後、これら候補の順位を再評価することで認識性能を向上させることができる。

プロセッサ１３０は認識結果の信頼性を確保するために信頼度点数（ｃｏｎｆｉｄｅｎｃｅｓｃｏｒｅ）（または「信頼度」に略称されることができる）を計算することができる。

信頼度点数は音声認識結果に対してその結果をどれだけ信じることができるかを現わす尺度で、認識された結果である音素や単語に対して、それ以外の他の音素や単語からその言葉が発話された確率に対する相対値で定義することができる。従って、信頼度点数は０〜１の間の値で表現することもでき、０〜１００の間の値で表現することもできる。信頼度点数が予め設定された閾値（ｔｈｒｅｓｈｏｌｄ）より大きい場合には認識結果を認め、小さい場合には認識結果を拒絶（ｒｅｊｅｃｔｉｏｎ）することができる。

その他にも、信頼度点数は従来の多様な信頼度点数獲得アルゴリズムによって獲得されることができる。

また、プロセッサ１３０は認識した使用者の音声を既設定された言語に翻訳し、これをテキストに変換してディスプレー部１４０を通じてディスプレーすることができる。さらに、プロセッサ１３０は翻訳された言語を入力された使用者の音声で音声出力部１５０を通じて音声出力することができる。このために、プロセッサは予め（または音声認識中）使用者の音声をメモリー１２０に記憶しておくことができる。

ディスプレー部１４０（例えば、ＬＣＤ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、ＬＥＤ（ｌｉｇｈｔ−ｅｍｉｔｔｉｎｇｄｉｏｄｅ）、ＯＬＥＤ（ｏｒｇａｎｉｃＬＥＤなど）はプロセッサ１３０の制御によって多様なイメージ／映像を出力することができる。

音声出力部１５０（例えば、スピーカー、イヤホンなど）はプロセッサ１３０の制御によって多様な音声を出力することができる。

プロセッサ１３０はソフトウェア、ハードウェアまたはこれらの組合を利用してコンピューターで読み取り可能な記録媒体内で具現されることができる。ハードウェア的な具現によれば、ＡＳＩＣｓ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）、ＤＳＰｓ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒｓ）、ＤＳＰＤｓ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅｓ）、ＰＬＤｓ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅｓ）、ＦＰＧＡｓ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙｓ）、プロセッサ（ｐｒｏｃｅｓｓｏｒ）、マイクロコントローラー（ｍｉｃｒｏｃｏｎｔｒｏｌｌｅｒｓ）、マイクロプロセッサ（ｍｉｃｒｏ−ｐｒｏｃｅｓｓｏｒ）などの電気的なユニットの中の少なくとも一つを利用して具現されることができる。

ソフトウェア的な具現によれば、少なくとも一つの機能または動作を行う別途のソフトウェアモジュールとともに具現されることができ、ソフトウェアコードは適切なプログラム言語で書かれたソフトウェアアプリケーションによって具現されることができる。

プロセッサ１３０は、以下で後述する図２〜図５で提案された機能、過程及び／または方法を具現し、以下では説明の便宜のためにプロセッサ１３０を音声認識装置１００と同一視して説明する。また、音声認識装置１４０は基本的に一つの装置で具現されることができるが、複数の装置の組合／結合で具現されることもできる。後者の場合、複数の音声認識装置は一つの音声認識システムを構成し、音声認識システムは複数の音声認識装置の中で選択された一つのマスター音声認識装置によって制御されることができる。以下では説明の便宜のために音声認識システムとマスター音声認識装置を同一視して説明する。

本発明は音声認識技術及び自動翻訳技術を利用した多者間対話認識／翻訳／出力／記録方法に関する。このような本発明によれば、画像や音声或はテキストを利用した対話システムの使用性を高め、より効果的に対話録の作成／出力／探索が可能である。

図２は本発明の一実施例による多者間対話システムを例示する。

図２を参照すれば、音声認識装置１４０は各発話者別に発話された音声を受けて、これを認識することができる。出力／記録する言語として音声認識装置１４０に設定された言語が認識した音声の言語と相異する場合、音声認識装置１４０は認識した言語を設定された言語に自動的に翻訳することができる。本図面の実施例の場合、設定された言語は「韓国語」である。従って、音声認識装置１４０は認識した音声の言語（例えば、英語及びプランス語）を全部「韓国語」に翻訳して、翻訳した結果をテキスト及び音声で出力することができる。

より詳しくは、音声認識装置１４０は音声認識／翻訳結果テキストを時間順にディスプレー部１４０に出力／表示することができる。そして／または、音声認識装置１４０は出力されたテキストを各テキストを発話した発話者の音声で音声出力部１５０を通じて出力することができる。このために、音声認識装置１４０は予め各発話者の音声を受けてメモリー１２０に記憶しておくことができる。また、音声認識装置１４０は出力されたテキストを予め設定された言語で音声出力することができる。即ち、本実施例の場合、音声認識装置１４０は出力されたテキストを「韓国語」で音声出力することができる。

即ち、全ての発話者の音声は音声認識装置１４０の使用者が所望の言語のテキストに変換及び翻訳されてディスプレー部１４０に出力されることができ、出力された各テキストは各発話者の音声に変換されて音声出力部を通じて出力されることができる。

図３は本発明の一実施例による複数の音声認識装置を含む音声認識システムを例示した図面である。

同じ空間に複数の音声認識装置１４０−１〜１４０−ｎが存在する場合、音声認識システム１４１は特定音声認識装置（または特定音声認識装置の音声出力部）を選択し、該音声認識装置のみを通じて音声が出力されるように制御することができる。その理由は、同じ音声が若干の時間差を以て複数の音声認識装置を通じて出力される場合、使用者はこれを聞き分けにくいからである。従って、音声認識システム１４１は同じ空間に複数の音声認識装置１４０−１〜１４０−ｎが存在すると判断した場合、指定／選択された一部音声認識装置のみで音声が出力されるように制御することができる。

音声認識システム１４１は各音声認識装置１４０−１〜１４０−ｎに別途に備えられたＧＰＳが提供する位置情報、電波範囲が狭い特定通信媒体に共通的に属するか否か、マイク流入音が類似するか否か、電波範囲の狭い光波、電波、音波などのいずれを送って互いに通信が可能であるか否かなど多様な実施例を通じて同じ空間に複数の音声認識装置１４０−１〜１４０−ｎが存在するか否かを判断することができる。

音声認識システム１４１は手動で、ランダムで、または既設定された規則に従って音声を出力する特定音声認識装置を選択することができる。例えば、音声認識システム１４１は対話参加者の地位／役割（これに対する詳細な情報は各参席者から別途に入力することができる。この場合対話進行者／司会者の音声認識装置が選択されることができる）及び／または各音声認識装置に備えられた音声出力部の特性（例えば、音量及び／または音質が一番良い音声出力部が備えられた音声認識装置が選択されることができる）などを反映して音声を出力する音声認識装置を選択することができる。

そして／または、音声認識システム１４１は、音声を出力する特定音声認識装置を選択しないで、複数の音声認識装置の間で音声出力同期化を行うことができる。音声出力同期が正しければ、複数の音声認識装置で同時に音声が出力されてもこれを聞く使用者は混乱を感じないからである。従って、音声認識システム１４１は複数の音声認識装置の間の音声出力同期化を行い、同期化された音声認識装置を通じて音声を同時に出力するように制御することができる。

そして／または、音声認識システム１４１は各発話者別に互いに異なる音声認識装置で音声が出力されるように制御することもできる。この場合、発話者の音声を認識した音声認識装置と該音声を出力する音声認識装置は互いに異なることができる。例えば、発話者の音声が第１音声認識装置内の音声入力部を通じて認識されても、認識された音声は第２音声認識装置内の音声出力部（例えば、ステレオスピーカーの場合、左右スピーカーの中の何れか一つ、サラウンドスピーカーの場合、ある一位置のスピーカー）を通じて出力されることができる。

このように、各発話者別に互いに異なる位置で音声が出力される場合、これを聞く聴取者は発話者の区分が容易になる。発話者の音声が出力される位置は音声認識システム１４１によって手動または自動的に指定されることができる。自動的に指定する場合、音声認識システム１４１は各発話者別に方向が区分されることができる何れの位置を指定することもでき、実際発話者の位置と同一／類似するように指定することもできる。

以下では、発話者の区分及びチャンネルの分離方法について説明する。

会議録／対話録の作成のための音声認識では、発話者の区分が重要である。即ち、記録の目的で作成される会議録／対話録の場合、発話者別に発言を分けて作成しなければならない。また、同じ空間に位置した複数の発話者の同時発話によって対話が重なる場合、音声認識装置／システムの認識正確度が低下するので、発話者別音声入力チャンネルが分離される必要がある。従って、以下ではこのような問題点を解決するための話者及びチャンネルの分離方法について提案する。

１．発話者及びチャンネルの分離方法：発話者別に個別的な音声入力部（例えば、ヘッドセット或はマイク）を用いる場合、各発話者別音声を独立したチャンネルで受けることができる。同じ空間に複数の発話者が位置する場合、他の発話者の音声が入力されることもあるが、原チャンネルとノイズチャンネルの間には声量の差があるので、音声認識装置／システムは他の発話者から入力された音声の区分が可能である。

２．話者の分離方法：人が２つの耳で発話者の位置を認識できることと同じく、音声認識装置／システムは２つ以上の音声入力部を通じて入力された音声の特性差とｉ−ｖｅｃｔｏｒで把握した環境特徴を用いて発話者の位置特徴を把握することができ、その結果、発話者の区分が可能である。

３．チャンネルの分離方法：複数の発話が個別音声入力部を用いても、同時に発話されて対話が重なった区間に対して音声認識装置／システムは正確に発話者別に対話を分離しくい。

これを解決するため、音声認識装置／システムは、
−第一、複数の音声入力部を通じて入力された音声をそれぞれ認識し、この中で信頼度の高い結果を選択／用いる。
−第二、対話が重なる前／後に全部対象発話者によって主に用いられた主音声入力部を通じて重なった対話を認識する。
−第三、イメージ処理技術で背景と客体が一緒に取った映像で背景のみ取った映像と比べて同一または類似する部分を差演算すれば、客体のみ残る方式と同じく、同じ演算を音声にも適用して、数値的に一番特性差が大きい二つの入力音声を互いに差演算して話が重なるノイズをとり除くことができる。

４．発話者の手動分離方法：発話者の分離に失敗したことを知らせるためのメッセージをディスプレー部に出力して使用者に知らせることができる。そして、使用者はマウスやキーボード、タッチなどの操作を通じて発話者の分離が失敗した文章で発話者の境界を指定して直接分離することができる。

以下では発話者の命名方式について説明する。

対話システムや対話録では発話者が区分されなければならないので、各発話者別に識別可能にするための名前が割り当てられなければならない。自動化されたシステムではログイン過程とＩＤなどを通じて発話者が識別／区分されることができる。しかし、ログイン過程やＩＤが全体或は部分的に省略される場合、或は一つのＩＤを多数が共有する場合、別途の処理方法が必要である。以下では、このような処理方法を提案する。

１．方法１：音声認識装置／システムは入力チャンネル或はメディア別に基本名前を割り当てることができる（例えば、マイク１、マイク２或は議長、判事、司会者、アナウンサー１など）

２．方法２：音声認識装置／システムは自己紹介または呼称と代用語連結を通じて発話者を分離することができる。各シナリオ別具体的な実施例は以下のようである：

１）シナリオ１
使用者１：「ファンミョンジン責任です。」
「使用者１＝ファンミョンジン責任」割り当て／命名

２）シナリオ２
使用者１：「ファンミョンジン責任はどう思いますか」
使用者２：「そうですね」
使用者２＝ファンミョンジン責任割り当て／命名

３）シナリオ３
使用者１：「ファン責任が言って見てください．」
使用者２：「そうですね．」
使用者２＝ファン責任割り当て／命名
使用者リスト検索
使用者２＝ファン責任＝ファンミョンジン責任

以下では効率的な対話探索方法について説明する。

一般的に映像や録音ファイルで所望の部分を探索する時は、スライドバーなどを利用して大略的な位置を探索しなければならない。これは、努力及び時間がたくさんかかり、探索正確度が非常に低いという短所を有する。しかし、本発明のように、音声認識が連動された対話システムでは音声認識結果に対する一般的なテキスト検索を通じて所望の部分を正確で且つ迅速に探索することができる。

この時、使用者が記録された対話録の内容の中で所望のテキストを選択すれば、音声認識装置／システムで該当のテキストを音声で出力することができる。このために、音声認識装置／システムは各テキスト部分を音声で出力する当時の各テキスト部分と連携させて出力音声を保存しておくことができ、使用者の要請時に該音声を出力することができる。

対話中に使用者から音声出力が要請された場合、音声認識装置／システムは音声認識機能を自動に中断することができる。これは、既に認識された内容を再認識するための負荷と使用者の分離及び区分などの負荷を減らすためである。設定によってまたは必要な場合、音声認識装置／システムは音声認識機能を中断せずに持続することもできる。音声認識装置／システムは音声のプレー時音声認識を中断しても音声録音は続けることができる。音声認識装置／システムは音声プレー時、ディスプレー部に現在音声をプレーしていることを知らせるアイコン／メッセージとプレー中の音声に対するリンク或は過去に認識した音声のテキストをディスプレーすることができる。

以下では核心語選択方法について提案する。

図４は本発明の一実施例による核心語選択方法を例示した図面である。

音声認識装置／システムは自動／手動リアルタイム／非リアルタイム核心語選択（ハイライト）及びこれを利用して対話の自動／半自動／手動要約を行うことができる。即ち、音声認識装置／システムは自動／手動で核心語彙や文章を対話中にリアルタイムでディスプレー部を通じて表示（色や太さ、下線、フォント変化など）する機能を使用者に提供することができる。核心語の自動選定方法としては、
−第一、予め指定したキーワードとのマッチングを通じる核心語彙及び核心文章を選定する方法
−第二、特定アルゴリズム（例えば、出現頻度数の高い語彙及び文章を判断するためのアルゴリズムなど）を通じた語彙及び文章の重要度選定方法があり得る。

手動選定方法としては、対話中或は対話終了後に多様な入力手段（例えば、キーボード、マウス、使用者のタッチなど）を通じて核心語／核心文章の選択及び解除を使用者によって直接入力する方法がある。

音声認識装置／システムは核心語の重要度や役割／機能によって表示方法を異なるようにすることができる。例えば、音声認識装置／システムは核心語／核心文章と非核心語／非核心文章、採択案と非採択案を他の方式（例えば、他のテキスト書式）で表示することができる。

音声認識装置／システムは核心語／核心文章に基づいて対話録／議事録を自動／手動的に要約することができる。自動による要約を行う場合、音声認識装置／システムは核心語／核心文章を主に特定アルゴリズムを用いて対話録／議事録を要約することができる。手動による要約を行う場合、音声認識装置／システムは予め定義された様式と規則に従って使用者によって直接選択された語彙／文章を並べて対話録／議事録を要約することができる。

図４は本発明の一実施例による誤認識語修正方法を例示した図面である。

音声認識装置／システムは認識信頼度が低い語彙や文章は他の語彙／文章と違うように（例えば、他のテキスト書式で）表示することができる。例えば、音声認識装置／システムは認識信頼度が低いと判断された語彙や文章の色や下線或はフォントを異なるようにして表示するか別途のアイコンを付け加えることができる。この時、音声認識装置／システムは言語モデル及び／または音響モデルを利用して信頼度を判断することができ、二つのモデルを全部利用する場合、言語モデルによる信頼度及び音響モデルによる信頼度が互いに区分されることができるように違うように表示することができる。または、使用者が直接音声認識が間違ったと判断した部分を直接リアルタイムで修正することもできる。

音声認識装置／システムは修正された内容をリアルタイムで反映することができる。音声認識装置／システムが誤認識修正内容をリアルタイムで反映する方法としては、
−第一、誤認識修正内容を基礎言語モデルに反映し再構築する方法、
−第二、基礎言語モデル外に該対話のみで用いられてから消える揮発性言語モデルに誤認識修正内容を反映して構築する方法、
−第三、単純に同一語彙に対して同一校正をする後処理方法があり得る。

後処理方法の場合、音声認識装置／システムは単純に語彙のみ比べて新しい修正内容で取り替えることもでき、該発音当時の音声特性の類似性を考慮して誤認識修正内容を反映する方法があり得る。

この時、誤認識修正内容のリアルタイム反映は以後の対話のみに反映されることもでき、以前の対話まで含んで反映されることもできる。また、使用者の修正内容は記録で残り、別途に表示されることができ、新たに音声を認識しても該記録や表示は削除されない場合もある。また、音声認識装置／システムは使用者の校正前の間違い内容と校正後の修正内容を使用者に一緒に表示／提供することもできる。

以下ではチャットウィンドウ構成方法について提案する。

チャットウィンドウは対話内容のテキストの外にイメージや動画或はウェブページのように表示、描きや相手の画像イメージも同じチャットウィンドウに構成されることができる。

音声認識装置／システムは対話中或は対話の終了後に対話内容を音声でプレーすることができ、時間順または逆順の再生が可能である。使用者は対話内容をスクロールしてプレー時点を選択することができ、スライドバーを利用して時点を選択することもできる。この時ディスプレー部に出力される全てのテキスト／イメージはプレーされる対話内容と同期化されて一緒に出力されることができ、使用者はコンテンツの修正を除いたチャットウィンドウ構成を変更することができる。

以下では発話者別対話分離表示方法について提案する。

音声認識装置／システムは発話者別に文章を分離／仕分け作業を行った後、時間順に文章を整列することができる。また、音声認識装置／システムは所定時間以上同時に発話が発生したり文章を分離してはいけない所で発話者が分離された場合、文章を分離しないこともある。ただ、この場合、発話者別に一つの文章で構成し、各発話者の文章を一つの束で表示することができる。束で管理される文章は同時に発話された時点によって単語別、文字別でインデントや間隔調節などを通じて発話された文章と発言時刻間の同期が表現されることができる。

図５は本発明の一実施例による音声認識及び翻訳方法を例示した順序図である。本順序図については前述した実施例／説明が同一／類似するように適用されることができ、重複される説明は省略する。

まず、音声認識装置／システムは音声が入力さることができる（Ｓ５０１）。音声が入力されるステップは、音声が入力される音声入力部別に発話者を区別し、発話者別音声を独立したチャンネルで入力されるステップに該当することができる。

次に、音声認識装置／システムは音声の言語である第１言語を認識することができる（Ｓ５０２）。

次に、音声認識装置／システムは第１言語を基盤とする基本音響モデルを通じて前記音声のテキストを認識することができる（Ｓ５０３）。ここで、音声のテキストを認識することは、音声を基本音響モデルを通じて第１言語のテキストに変換することを意味することができる。

次に、音声認識装置／システムは第１言語が出力言語として予め設定された出力言語でない場合、前記認識された音声を出力言語に翻訳することができる（Ｓ５０４）。この場合、音声認識装置／システムは第１言語のテキストを翻訳して前記出力言語のテキストに変換することができる。

次に、音声認識装置／システムは出力言語で構成された結果を保存及び出力することができる（Ｓ５０５）。この場合、音声認識装置／システムは出力言語で構成された結果をテキスト及び／または音で出力することができる。音で出力する場合、音声認識装置／システムは前記入力された音声と同じ音声で前記出力言語を出力することができる。このために、音声認識装置／システムは前記入力された音声を予めメモリーに記憶しておくことができる。

同じ領域内に前記出力言語を前記音で出力するための音声出力部が複数存在する場合、音声認識装置／システムは複数の音声出力部の中で音を出力する少なくとも一つの音声出力部を選択し、前記選択された少なくとも一つの音声出力部のみを通じて前記出力言語で構成された結果を音で出力することができる。この時、音声認識装置／システムは複数の音声出力部の中で発話者の実際或は仮想の位置と近い順に既設定された個数だけ音声出力部を選択することができる。

また、音声が複数回入力された場合、音声認識装置／システムは各出力テキストを音声の入力ソースを識別するための識別子ＩＤ別に区分して音声が入力された時間順に出力することができる。識別子は音声が入力された音声入力チャンネル別に互いに異なるように割り当てられたことができる。また、識別子は出力言語で構成された結果内で選択されることができる。また、音声認識装置／システムは識別子と出力言語で構成された結果を互いに連携して保存することができる。

また、音声認識装置／システムは出力言語で構成された結果で単語、語彙及び／または文章の重要度別に互いに異なる書式が適用されたテキストで出力することができる。この時、重要度は、現在まで保存された翻訳結果内での出現頻度数を基準として決まることができる。

また、音声認識装置／システムは出力言語で構成された結果の中で音声認識信頼度が既設定されたレベル未満の単語、語彙及び／または文章に対して既設定された書式が適用されたテキストで出力することができる。この場合、音声認識装置／システムは既設定された書式が適用されたテキストに対する修正テキストが入力され、修正テキストで既設定された書式が適用されたテキストを取り替えることができる。

また、音声認識装置／システムは既保存された結果を音声で出力する場合（Ｓ５０５）、前記既保存された結果を出力する間には前記音声を入力するステップ（Ｓ５０１）を中断することができる。

また、音声認識装置／システムは前記出力された結果の中で核心語及び／または核心文章の選択及び解除を使用者から入力することができる（例えば、キーボード、マウス、使用者のタッチなどを通じる手動入力を通じて）この場合、音声認識装置／システムは選択された核心語及び／または核心文章を中心に既設定されたアルゴリズムを用いて出力言語で構成された結果を要約することができる。

本発明による実施例は多様な手段、例えば、ハードウェア、ファームウエア（ｆｉｒｍｗａｒｅ）、ソフトウェアまたはそれらの結合などによって具現されることができる。ハードウェアによる具現の場合、本発明の一実施例は一つまたはその以上のＡＳＩＣｓ（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔｓ）、ＤＳＰｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｓ）、ＤＳＰＤｓ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ）、ＰＬＤｓ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ）、ＦＰＧＡｓ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサなどによって具現されることができる。

ファームウエアやソフトウェアによる具現の場合、本発明の一実施例は以上で説明された複数の機能または動作を行うモジュール、手続き、関数などの形態で具現されることができる。ソフトウェアコードはメモリーに記憶されてプロセッサによって駆動されることができる。前記メモリーは前記プロセッサの内部または外部に位置して、既に公知された多様な手段によって前記プロセッサとデータを取り交わすことができる。

本発明は本発明の必須特徴を逸脱しない範囲で他の特定の形態に具体化されることができることは当業者にとって自明である。従って、上述した詳細な説明は全ての面で制限的に解釈されてはならなく、例示的なものと考慮されるべきである。本発明の範囲は添付された請求項の合理的な解釈によって決まるべきであり、本発明の等価的範囲内での全ての変更は本発明の範囲に含まれる。

一方、本明細書で「及び／または」は「少なくとも一つ」の意味に解釈されることができる。

本発明は多様な対話状況に適用されることができる。

Claims

多者間音声認識システムによる音声認識及び翻訳方法において、
音声が入力されるステップ；
前記音声の言語である第１言語を認識するステップ；
前記第１言語を基盤とする基本音響モデルを通じて前記音声のテキストを認識するステップ；
前記第１言語が出力言語として予め設定された出力言語でない場合、前記認識された音声を前記出力言語に翻訳するステップ；及び
前記出力言語で構成された結果を保存及び出力するステップ；を含む、音声認識及び翻訳方法。
前記音声を認識するステップは、前記音声を前記基本音響モデルを通じて前記第１言語のテキストに変換するステップである、請求項１に記載の音声認識及び翻訳方法。
前記出力言語に翻訳するステップは、前記第１言語のテキストを翻訳して前記出力言語のテキストに変換するステップである、請求項２に記載の音声認識及び翻訳方法。
前記出力言語で構成された結果を保存及び出力するステップは、前記出力言語に翻訳された結果をテキスト及び／または音で出力するステップを含む、請求項１または３に記載の音声認識及び翻訳方法。
前記出力言語で構成された結果を前記音で出力するステップは、前記入力された音声と同じ音声で前記出力言語を出力するステップを含む、請求項４に記載の音声認識及び翻訳方法。
同じ領域内に前記出力言語を前記音で出力するための音声出力部が複数存在する場合、前記出力言語で構成された結果を前記音で出力するステップは、
前記複数の音声出力部の中で前記音を出力する少なくとも一つの音声出力部を選択するステップ；及び
前記選択された少なくとも一つの音声出力部のみを通じて前記結果を前記音で出力するステップ；を含む、請求項４に記載の音声認識及び翻訳方法。
前記少なくとも一つの音声出力部を選択するステップは、前記複数の音声出力部の中で前記発話者の実際或は仮想の位置と近い順で既設定された個数だけ音声出力部を選択するステップである、請求項６に記載の音声認識及び翻訳方法。
前記音声が複数回入力された場合、前記出力言語で構成された結果を前記テキストで出力するステップは、前記テキストを前記音声の入力ソースを識別するための識別子（Ｉｄｅｎｔｉｆｉｅｒ；ＩＤ）別に区分して前記音声が入力された時間順に出力するステップである、請求項４に記載の音声認識及び翻訳方法。
前記識別子は前記音声が入力された音声入力チャンネル別に互いに異なるように割り当てられた、請求項８に記載の音声認識及び翻訳方法。
前記識別子は前記出力言語で構成された結果内で選択される、請求項９に記載の音声認識及び翻訳方法。
前記出力言語で構成された結果を前記テキストで出力するステップは、前記出力言語で構成された結果で単語、語彙及び／または文章の重要度別に互いに異なる書式が適用されたテキストで出力するステップを含む、請求項８に記載の音声認識及び翻訳方法。
前記出力言語で構成された結果を前記テキストで出力するステップは、前記出力言語で構成された結果の中で音声認識信頼度が既設定されたレベル未満の前記単語、前記語彙及び／または前記文章に対して既設定された書式が適用されたテキストで出力するステップをさらに含む、請求項１１に記載の音声認識及び翻訳方法。
前記既設定された書式が適用されたテキストに対する修正テキストが入力されるステップ；及び
前記修正テキストで前記既設定された書式が適用されたテキストを取り替えるステップ；をさらに含む、請求項１２に記載の音声認識及び翻訳方法。
前記出力言語で構成された結果を保存するステップは、前記識別子と前記出力言語で構成された結果を互いに連携して保存するステップをさらに含む、請求項１３に記載の音声認識及び翻訳方法。
前記音声が入力されるステップは、前記音声が入力される音声入力部別に発話者を区別し、前記発話者別音声を独立したチャンネルで受けるステップに該当する、請求項１に記載の音声認識及び翻訳方法。
前記既保存された結果を前記音声で出力する場合、前記既保存された結果を出力する間に前記音声が入力されるステップが中断される、請求項１に記載の音声認識及び翻訳方法。
前記出力された結果の中で核心語及び／または核心文章の選択及び解除を使用者から入力されるステップをさらに含む、請求項１に記載の音声認識及び翻訳方法。
前記選択された核心語及び／または核心文章を中心に既設定されたアルゴリズムを用いて前記出力言語で構成された結果を要約するステップをさらに含む、請求項１７に記載の音声認識及び翻訳方法。
音声認識システムにおいて、
音声が入力される音声入力部と、
前記音声の言語である第１言語を認識し、前記第１言語を基盤とする基本音響モデルを通じて前記音声を認識し、前記第１言語が出力言語として予め設定された出力言語でない場合、前記認識された音声を前記出力言語に翻訳するプロセッサと、
前記出力言語に翻訳された結果を保存するメモリーと、
前記出力言語に翻訳された結果を出力する出力部と、を含む、音声認識システム。