JP2021144218A

JP2021144218A - 音声対話再構成方法及び装置

Info

Publication number: JP2021144218A
Application number: JP2021038052A
Authority: JP
Inventors: ファン，ミョンジン; Myeongjin Hwang; キム，スンテ; Suntae Kim; ジ，チャンジン; Changjin Ji
Original assignee: Llsollu Co Ltd
Current assignee: Llsollu Co Ltd
Priority date: 2020-03-10
Filing date: 2021-03-10
Publication date: 2021-09-24
Also published as: CN113450772A; US20210327446A1; KR102208387B1; EP3879526A1; CN113450772B

Abstract

【課題】対話の流れに最大限近い対話構成を提供する音声対話再構成方法を提供する。【解決手段】方法は、音声対話に対する話者別音声認識データを獲得するステップと、獲得した話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、分割された複数のブロックを話者と関係なく時刻順に整列するステップと、整列した複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、併合の結果が反映された複数のブロックを時刻順と話者を区分して対話形式に再構成するステップと、を含む。【選択図】図２

Description

本発明は音声対話に対する話者別音声認識データを対話形式に再構成する方法及び装置に関する。

自然語を入力処理する技術の中で、音声テキスト変換（ＳＴＴ、Ｓｐｅｅｃｈ−Ｔｏ−Ｔｅｘｔ）は音声をテキストに変換する音声認識技術である。

このような音声認識技術は、リアルタイム性によって二つに分けることができる。一つは変換しようとする音声を一度に受けて一括変換する方式であり、他の一つはリアルタイムで生成される音声を所定単位（例えば、１秒未満の単位）で受けてリアルタイムで変換する方式である。

その中、一括変換方式は、通常入力された音声全体を認識した後、一度に結果を生成することである一方、リアルタイム変換方式は音声認識の結果を生成する時点を定義しなければならない。

リアルタイム変換方式のための認識結果生成時点を定義する方法は大きく３つの方法がある。第一、特別な終了信号（例えば、認識／通話終了ボタン操作など）が入力された時点に認識結果を生成することができる。第二、一定長さ（例えば、０．５秒）以上の黙音などのようなＥＰＤ（ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）が発生した時点に認識結果を生成することができる。第三、一定時間ごとに認識結果を生成することができる。

その中で、認識結果生成時点を定義する三番目の方式は、認識結果生成時点が連結された言葉が終わっていない時点、即ち話している途中でもある不完全な特性がある。そこで、正式な結果を生成する時よりは一定時点以後から現在まで認識された結果を臨時に得ようとする時に主に使われ、このようにして得た結果は完了された認識結果ではなく、不完全結果（ＰａｒｔｉａｌＲｅｓｕｌｔ）と言う。

このような不完全結果はＥＰＤ境界を単位とする認識結果と違って、現在生成された結果に以前の生成結果が含まれていることがある。例えば、ＥＰＤ単位認識結果は、「Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｈ」を認識するために、「Ａ、Ｂ、Ｃ」、「Ｄ、Ｅ」、「Ｆ、Ｇ、Ｈ」という結果を生成するが、不完全結果は、「Ａ」、「ＡＢ」、「ＡＢＣ」、「Ｄ」、「Ｄ、Ｅ」、「Ｆ」、「Ｆ、Ｇ」、「Ｆ、Ｇ、Ｈ」のようにＥＰＤが発生しない限り通常過去生成結果を含む。

一方、音声認識技術は、音声認識の正確度が最近にはかなり高くなったが、話者が多数の対話を認識する場合には二人以上が同時に話す状況での言葉が重なる区間での音声認識問題や、どの声が誰の声なのかを区分しなければならない話者識別問題などの困難がある。

そこで、常用システムでは話者別にそれぞれの入力装置を用いることにより話者別に音声をそれぞれ認識して話者別音声認識データを生成及び獲得する方式が利用されている。

このように、音声対話に対して話者別に音声認識データを生成及び獲得する場合、獲得された話者別音声認識データを対話形式に再構成する必要があり、話者別音声認識データを対話形式に再構成する技術は持続的に研究されている。

（特許文献１）韓国公開特許公報第１０−２０１４−００７８２５８号（２０１４．６．２５．公開）

一実施例によれば、音声対話に対する話者別音声認識データを対話形式に再構成するにおいて、実際対話の流れに最大限近い対話構成を提供する音声対話再構成方法及び装置を提供する。

本発明が解決しようとする課題は以上で言及したことに制限されず、言及されなかったまた他の解決しようとする課題は以下の記載から本発明が属する通常の知識を有する者に明確に理解され得る。

第１観点による音声対話再構成装置の音声対話再構成方法は、音声対話に対する話者別音声認識データを獲得するステップと、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む。

第２観点による音声対話再構成装置は、音声対話が入力される入力部と、前記入力部を通じて入力された前記音声対話に対する音声認識を処理する処理部とを含み、前記処理部は、前記音声対話に対する話者別音声認識データを獲得し、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割し、前記分割された複数のブロックを話者と関係なく時刻順に整列し、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合し、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成する。

第３観点によれば、コンピュータープログラムを記憶しているコンピュータ読み取り可能な記録媒体は、前記コンピュータープログラムがプロセッサーによって実行される場合、音声対話に対する話者別音声認識データを獲得するステップと、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む。

第４観点によれば、コンピュータ読み取り可能な記録媒体に記憶されているコンピュータープログラムは、プロセッサーによって実行される場合、音声対話に対する話者別音声認識データを獲得するステップと、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む。

一実施例によれば、音声対話に対する話者別音声認識データを対話形式に再構成するにおいて、実際対話の流れに最大限に近い対話構成を提供することができる。

そして、音声対話中に一定時間ごとに生成する音声認識結果である不完全結果（ＰａｒｔｉａｌＲｅｓｕｌｔ）を反映して対話を再構成するので、リアルタイムに変換された対話を確認することができ、リアルタイム音声認識結果を反映するので、このような音声認識結果を画面に出力する時、一度に更新される対話の量が少なくて対話の構成が崩れたり、画面の中で読む位置の変化程度が比較的少なくて高い可読性と認知性を提供するという効果を奏する。

一実施例による音声対話再構成装置の構成図である。一実施例による音声対話再構成方法を説明するための流れ図である。一実施例による音声対話再構成方法の中で話者別に音声認識データを獲得する過程を説明するための流れ図である。一実施例による音声対話再構成装置による音声対話再構成結果を例示した図面である。

本発明の利点及び特徴、そしてそれらを達成する方法は添付される図面とともに後述される実施例によって明確になり得る。しかしながら、本発明は以下で開示される実施例に限定されるのではなく、互いに異なる多様な形態に具現されることができ、ただし、本実施例は本発明の開示が完全になるようにし、本発明が属する技術分野において通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によって定義されるだけである。

本明細書で用いられる用語について簡略に説明し、本発明について具体的に説明する。

本発明で用いられる用語は本発明での機能を考慮しながらできるだけ現在広く用いられる一般的な用語を選択したが、これは当該分野における技術者の意図または判例、新しい技術の出現などによって異なる場合がある。また、特定の場合は出願人が任意に選定した用語もあり、この場合に該当する発明の説明の部分でその意味について詳しく記載する。従って、本発明で用いられる用語は単純に用語の名称ではない、その用語が持つ意味と本発明の全般にわたった内容に基づいて定義されなければならない。

明細書全体において、ある部分がある構成要素を「含む」とする場合、これは特に反対される記載がない限り他の構成要素を除くのではなく、他の構成要素をさらに含むことができることを意味する。

また、明細書で用いられる「部」という用語は、ソフトウェアまたはＦＰＧＡやＡＳＩＣのようなハードウェア構成要素を意味し、「部」はある役割を果たすだけでなく、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」はアドレシングすることができる記憶媒体にあるように構成されることもでき、一つまたはその以上のプロセッサーを再生させるように構成されることもできる。従って、一例として「部」は複数のソフトウェア構成要素、複数の客体志向ソフトウェア構成要素、複数のクラス構成要素及び複数のタスク構成要素のような複数の構成要素と、複数のプロセッサー、複数の関数、複数の属性、複数のプロシージャ、複数のサブルーチン、複数のプログラムコードの複数のセグメント、複数のドライバー、ファームウエア、マイクロコード、回路、データ、データベース、複数のデータ構造、複数のテーブル、複数のアレイ及び複数の変数を含む。複数の構成要素と複数の「部」の中で提供される機能はより少ない数の構成要素及び複数の「部」で結合されたり、複数の追加的構成要素と複数の「部」にさらに分離されることができる。

以下では添付した図面を参考して本発明の実施例について本発明が属する技術分野において通常の知識を有する者が容易に実施することができるように詳しく説明する。そして、図面で本発明を明確に説明するために説明と関係のない部分は省略する。

図１は一実施例による音声対話再構成装置の構成図である。

図１によれば、音声対話再構成装置１００は、入力部１１０、及び処理部１２０を含み、出力部１３０及び／または記憶部１４０をさらに含むことができる。処理部１２０は話者別データ処理部１２１、ブロック分割部１２２、ブロック整列部１２３、ブロック併合部１２４及び対話再構成部１２５を含むことができる。

入力部１１０は音声対話が入力される。このような入力部１１０は音声対話による音声データを話者別にそれぞれ分離して入力されることができる。例えば、入力部１１０は話者の数と一対一に対応する数のマイクロフォン（Ｍｉｃｒｏｐｈｏｎｅ）を含むことができる。

処理部１２０は入力部１１０を通じて入力された音声対話に対する音声認識を処理する。例えば、処理部１２０はマイクロプロセッサー（Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）などのようなコンピュータ演算手段を含むことができる。

処理部１２０の話者別データ処理部１２１は音声対話に対する話者別音声認識データを獲得する。例えば、話者別データ処理部１２１は、ＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）を含むことができ、ＡＳＲは入力部１１０を通じて入力された話者別音声データに対して前処理過程を通じて雑音を除いた後文字列を抽出することができる。このような話者別データ処理部１２１は話者別音声認識データを獲得する場合において、複数の認識結果生成時点を適用することができる。例えば、話者別データ処理部１２１は音声対話に対してＥＰＤ（ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）単位に話者別第１認識結果を生成し、また既設定時間ごとに話者別第２認識結果を生成することができる。例えば、話者別第２認識結果は話者別第１認識結果を生成するＥＰＤが最後に発生された後に生成されたものでもあり得る。そして、話者別データ処理部１２１は話者別第１認識結果と話者別第２認識結果を重なり及び重複することなく話者別に集めて初めて話者別音声認識データを生成することができる。勿論、話者別データ処理部１２１は話者別音声認識データを獲得するにおいて単一の認識結果生成時点を適用することもできる。例えば、話者別第１認識結果と話者別第２認識結果の中の何れか一つのみ生成することもできる。

処理部１２０のブロック分割部１２２は話者別データ処理部１２１によって獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割する。例えば、既設定された分割基準は一定時間以上の黙音区間や前トークンとの形態素的特性であり得る。

処理部１２０のブロック整列部１２３はブロック分割部１２２によって分割された複数のブロックを話者と関係なく時刻順に整列する。

処理部１２０のブロック併合部１２４はブロック整列部１２３によって整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合する。

処理部１２０の対話再構成部１２５はブロック併合部１２４による併合の結果が反映された複数のブロックを時刻順と話者を区分して対話形式に再構成する。

出力部１３０は処理部１２０による処理結果を出力する。例えば、出力部１３０は出力インターフェースを含むことができ、処理部１２０から提供された変換データを処理部１２０の制御によって出力インターフェースに連結されている他の電子装置に出力することができる。または、出力部１３０はネットワークカードを含むことができ、処理部１２０から提供された変換データを処理部１２０の制御によってネットワークを通じて送信することもできる。または、出力部１３０は処理部１２０による処理結果を画面に表示することができる表示装置を含むこともでき、対話再構成部１２５によって対話形式に再構成された音声対話に対する音声認識データを、話者を区分して時間順別に画面に表示することができる。

記憶部１４０には音声対話再構成装置１００のための運営体制プログラムが記憶されることができ、処理部１２０による処理結果が記憶されることもできる。例えば、記憶部１４０はハードディスク、フロッピーディス及び磁気テープのような磁気媒体（ｍａｇｎｅｔｉｃｍｅｄｉａ）、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体（ｏｐｔｉｃａｌｍｅｄｉａ）、フロプティカルディス（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気―光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、フラッシュメモリー（ｆｌａｓｈｍｅｍｏｒｙ）のようなプログラム命令語を記憶して実行するように特別に構成されたハードウェア装置などのようにコンピュータ読み取り可能な記録媒体であり得る。

図２は一実施例による音声対話再構成方法を説明するための流れ図であり、図３は一実施例による音声対話再構成方法の中で話者別に音声認識データを獲得する過程を説明するための流れ図であり、図４は一実施例による音声対話再構成装置による音声対話再構成結果を例示した図面である。

以下、図１〜図４を参照して本発明の一実施例による音声対話再構成装置１００で実行する音声対話再構成方法について詳しく説明する。

まず、入力部１１０は音声対話による音声データを話者別にそれぞれ分離して入力され、入力された話者別音声データを処理部１２０に提供する。

そして、処理部１２０の話者別データ処理部１２１は音声対話に対する話者別音声認識データを獲得する。例えば、話者別データ処理部１２１に含まれるＡＳＲは入力部１１０を通じて入力された話者別音声データに対して前処理過程を通じて雑音を除いた後文字列を抽出することで文字列からなる話者別音声認識データを獲得することができる（Ｓ２１０）。

ここで、話者別データ処理部１２１は話者別音声認識データを獲得するにおいて、複数の認識結果生成時点を適用する。話者別データ処理部１２１は、音声対話に対してＥＰＤ単位に話者別第１認識結果を生成する。同時に、話者別データ処理部１２１は話者別第１認識結果を生成するＥＰＤが最後に発生された後、既設定時間ごとに話者別第２認識結果を生成する（Ｓ２１１）。そして、話者別データ処理部１２１は話者別第１認識結果と話者別第２認識結果を重なり及び重複することなく話者別に集めて最終的に話者別音声認識データを生成する（Ｓ２１２）。

このように、話者別データ処理部１２１によって獲得された話者別音声認識データは追後対話再構成部１２５によって対話形式に再構成される。ところが、音声と違ってテキスト形態の対話形式を再構成する場合、第１話者が話をしている間に第２話者の言葉が短いながらも出てしまう状況を仮定すれば、このような状況をテキストで表現しようとする場合、途中に言葉を切るか、どこを切るかなどを決めなければならない。例えば、全体対話に対して黙音区間を基準として言葉を切った後、全ての話者のデータを集めて時間順に整列することができる。この場合、ＥＰＤを基準として追加的に認識されたテキストが発生する場合、その長さだけが一度に画面に追加されて使用者が読んでいた位置が崩れたり、対話の構成が変わる問題も発生する。また、この時、対話の構成単位を自然にしない場合、対話の文脈が崩れたりする。例えば、第１話者が連続に話している途中に第２話者が「はい」と言った場合、「はい」は実際文脈の位置に表現されず、第１話者の連続する長い話の最後に付くこともできる。また、この時、リアルタイム性が加われば、話者が話をしており、認識もしているにもＥＰＤが発生する前までは画面上で認識結果を確認することができない。むしろ第１話者が先に話をしたにも関らず、後で話をした第２話者の話が短くて先に終わったことから画面上では第１話者の話はなく、第２話者の話だけ表示される状況も発生する。このような様々な状況に対応するために、一実施例による音声対話再構成装置１００は、ブロック分割部１２２による分割過程、ブロック整列部１２３による整列過程及びブロック併合部１２４による併合過程を経る。分割過程と整列過程は元の対話の流れに合わせて話の間間に他の話者の話を挟み込むためのことであり、併合過程は挟み込みをするために実行した分割によって対話を構成する文章がとても短く切られることを防止するためである。

処理部１２０のブロック分割部１２２は話者別データ処理部１２１によって獲得された話者別音声認識データを既設定された分割基準によってトークン（例えば、単語／語節／形態素）間境界を利用して複数のブロックに分割して処理部１２０のブロック整列部１２２に提供する。例えば、既設定された分割基準は一定時間以上の黙音区間や前のトークンとの形態素的特性（例えば、語節間）であってもよく、ブロック分割部１２２は一定時間以上の黙音区間や前のトークンとの形態素的特性を分割基準として利用して話者別音声認識データを複数のブロックに分割することができる（Ｓ２２０）。

続いて、処理部１２０のブロック配置部１２３は、ブロック分割部１２２によって分割された複数のブロックを話者と関係なく時刻順に整列して処理部１２０のブロック併合部１２４に提供する。例えば、ブロック整列部１２３は、各ブロックの開始時刻を基準として整列することもでき、各ブロックの中間時刻を基準として整列することもできる（Ｓ２３０）。

そして、処理部１２０のブロック併合部１２４は、ブロック整列部１２３によって整列された複数のブロックに対して同一話者の連続発話による複数のブロックを併合し、ブロック併合の結果が反映された話者別音声認識データを対話再構成部１２５に提供する。例えば、ブロック併合部１２４は前のブロックとの間に存在する一定時間以下の黙音区間や前のブロックとの構文特性（例えば、前のブロックが文章の終わりの場合など）を利用して、同一話者の連続発話を判別することができる（Ｓ２４０）。

次に、処理部１２０の対話再構成部１２５はブロック併合部１２４による併合の結果が反映された複数のブロックを時刻順と話者を区分して対話形式に再構成し、再構成された音声認識データを出力部１３０に提供する（Ｓ２５０）。

それにより、出力部１３０は処理部１２０による処理結果を出力する。例えば、出力部１３０は処理部１２０から提供された変換データを処理部１２０の制御によって出力インターフェースに連結されている他の電子装置に出力することができる。または、出力部１３０は処理部１２０から提供された変換データを処理部１２０の制御によってネットワークを通じて送信することもできる。または、出力部１３０は処理部１２０による処理結果を、図４の例示のように、表示装置の画面に表示することができる。図４の例示のように、出力部１３０は対話再構成部１２５によって対話形式に再構成された音声対話に対する音声認識データを、話者を区分して時間順別に画面に表示することができる。ここで、出力部１３０は再構成された音声認識データを更新出力する時、ステップ（Ｓ２１１）で生成された話者別第１認識結果が反映された画面を更新出力することができる。即ち、ステップ（Ｓ２５０）で対話再構成部１２５が、話者別第１認識結果が反映された音声認識データを出力部１３０に提供することである（Ｓ２６０）。

一方、前述した一実施例による音声対話再構成方法に含まれたそれぞれのステップは、このようなステップを実行するようにするための命令語を含むコンピュータープログラムを記録するコンピュータ読み取り可能な記録媒体で具現されることができる。

また、前述した一実施例による音声対話再構成方法に含まれたそれぞれのステップは、このようなステップを実行するための命令語を含むようにプログラムされた、コンピュータ読み取り可能な記録媒体に記憶されたコンピュータープログラムの形態で具現されることができる。

ここまで説明したように、本発明の実施例によれば、音声対話に対する話者別音声認識データを対話形式に再構成するにおいて、実際対話の流れに最大限に近い対話構成を提供することができる。

そして、音声対話中に一定時間ごとに生成する音声認識結果である不完全結果を反映して対話を再構成するので、リアルタイムに変換された対話を確認することができ、リアルタイム音声認識結果を反映するので、このような音声認識結果を画面に出力する時に一度に更新される対話の量が少なくて対話の構成が崩れたり、画面中に読む位置の変化程度が比較的少なくて高い可読性及び認知性を提供する。

本発明に添付された各フロー図の各ステップの組み合わせは、コンピュータープログラムインストラクションによって実行されることもできる。これらコンピュータープログラムインストラクションは汎用コンピュータ、特殊用コンピュータまたはその他プログラム可能なデータプロセッシング装備のプロセッサーに搭載されることができるので、コンピュータまたはその他プログラム可能なデータプロセッシング装備のプロセッサーを通じて実行されるそのインストラクションがフロー図の各ステップで説明された機能を実行する手段を生成する。これらコンピュータープログラムインストラクションは特定方式で機能を具現するために、コンピュータまたはその他プログラム可能なデータプロセッシング装備を志向することができるコンピュータ利用可能またはコンピュータ読み取り可能な記録媒体に記憶されることも可能であるので、そのコンピュータ利用可能またはコンピュータ読み取り可能な記録媒体に記憶されたインストラクションはフロー図の各ステップで説明された機能を実行するインストラクション手段を内包する製造品目を生産することも可能である。コンピュータープログラムインストラクションはコンピュータまたはその他プログラム可能なデータプロセッシング装備上に搭載されることも可能であるので、コンピュータまたはその他プログラム可能なデータプロセッシング装備上で一連の動作ステップが実行されてコンピュータで実行されるプロセスを生成してコンピュータまたはその他プログラム可能なデータプロセッシング装備を実行するインストラクションは流れ図の各ステップで説明された機能を実行するための多数のステップを提供することも可能である。

また、各ステップは特定された複数の論理的機能を実行するための一つ以上の実行可能なインストラクションを含むモジュール、セグメントまたはコードの一部を現わすことができる。また、いくつかの実施例ではステップで言及された機能が順序を逸脱して発生することも可能であることに注目すべきである。例えば、次いで図示されている二つのステップは実質的に同時に実行されることも可能であり、またはその複数のステップが時々該当する機能によって逆順に実行されることも可能である。

以上の説明は本発明の技術思想を例示的に説明したことに過ぎず、本発明が属する技術分野において通常の知識を有する者であれば本発明の本質的品質から逸脱しない範囲内で多様な修正及び変形が可能である。従って、本発明に開示された実施例は本発明の技術思想を限定するためではなく、説明するためのものであって、このような実施例によって本発明の技術思想の範囲が限定されるのではない。本発明の保護範囲は特許請求範囲によって解釈されるべきであり、それと均等な範囲内にある全ての技術思想は本発明の権利範囲に含まれることと解釈されるべきである。

１００音声対話再構成装置
１１０入力部
１２０処理部
１２１話者別データ処理部
１２２ブロック分割部
１２３ブロック整列部
１２４ブロック併合部
１２５対話再構成部
１３０出力部
１４０記憶部

Claims

音声対話再構成装置の音声対話再構成方法において、
音声対話に対する話者別音声認識データを獲得するステップと、
前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、
前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップと、を含む音声対話再構成方法。
前記話者別音声認識データを獲得するステップは、
前記音声対話に対してＥＰＤ（ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）単位に生成された話者別第１認識結果と既設定時間ごとに生成された話者別第２認識結果を獲得するステップと、
前記話者別第１認識結果と前記話者別第２認識結果を重なり及び重複することなく集めて前記話者別音声認識データを生成するステップと、を含む請求項１に記載の音声対話再構成方法。
前記話者別第２認識結果は最後のＥＰＤが発生された後に生成されたことである請求項２に記載の音声対話再構成方法。
前記既設定された分割基準は、一定時間以上の黙音区間や前のトークンとの形態素的特性である請求項１に記載の音声対話再構成方法。
前記併合するステップは、一定時間以下の黙音区間や前のブロックとの構文特性によって前記同一話者の連続発話を判別する請求項１に記載の音声対話再構成方法。
前記対話形式に再構成された音声認識データを画面に出力するステップをさらに含み、前記画面の更新時に前記話者別音声認識データを一括更新するか前記話者別第１認識結果を反映する更新を実行する請求項２に記載の音声対話再構成方法。
音声対話が入力され入力部と、
前記入力部を通じて入力された前記音声対話に対する音声認識を処理する処理部とを含み、
前記処理部は、
前記音声対話に対する話者別音声認識データを獲得し、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割し、前記分割された複数のブロックを話者と関係なく時刻順に整列し、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合し、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成する音声対話再構成装置。
前記処理部は、
前記音声対話に対してＥＰＤ（ＥｎｄＰｏｉｎｔＤｅｔｅｃｔｉｏｎ）単位に生成された話者別第１認識結果と既設定時間ごとに生成された話者別第２認識結果を獲得し、
前記話者別第１認識結果と前記話者別第２認識結果を重なり及び重複することなく集めて前記話者別音声認識データを生成する請求項７に記載の音声対話再構成装置。
コンピュータープログラムを記憶しているコンピュータ読み取り可能な記録媒体において、
前記コンピュータープログラムは、プロセッサーによって実行される場合、
音声対話に対する話者別音声認識データを獲得するステップと、
前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、
前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む、コンピュータ読み取り可能な記録媒体。
コンピュータ読み取り可能な記録媒体に記憶されているコンピュータープログラムにおいて、
前記コンピュータープログラムは、プロセッサーによって実行される場合、
音声対話に対する話者別音声認識データを獲得するステップと、
前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
前記整列された複数のブロックに対して同一話者の連続発話による複数のブロックを併合するステップと、
前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む、コンピュータープログラム。