JP2021144218A - 音声対話再構成方法及び装置 - Google Patents

音声対話再構成方法及び装置 Download PDF

Info

Publication number
JP2021144218A
JP2021144218A JP2021038052A JP2021038052A JP2021144218A JP 2021144218 A JP2021144218 A JP 2021144218A JP 2021038052 A JP2021038052 A JP 2021038052A JP 2021038052 A JP2021038052 A JP 2021038052A JP 2021144218 A JP2021144218 A JP 2021144218A
Authority
JP
Japan
Prior art keywords
speaker
blocks
voice
dialogue
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021038052A
Other languages
English (en)
Other versions
JP2021144218A5 (ja
Inventor
ファン,ミョンジン
Myeongjin Hwang
キム,スンテ
Suntae Kim
ジ,チャンジン
Changjin Ji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Llsollu Co Ltd
Original Assignee
Llsollu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Llsollu Co Ltd filed Critical Llsollu Co Ltd
Publication of JP2021144218A publication Critical patent/JP2021144218A/ja
Publication of JP2021144218A5 publication Critical patent/JP2021144218A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】対話の流れに最大限近い対話構成を提供する音声対話再構成方法を提供する。【解決手段】方法は、音声対話に対する話者別音声認識データを獲得するステップと、獲得した話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、分割された複数のブロックを話者と関係なく時刻順に整列するステップと、整列した複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、併合の結果が反映された複数のブロックを時刻順と話者を区分して対話形式に再構成するステップと、を含む。【選択図】図2

Description

本発明は音声対話に対する話者別音声認識データを対話形式に再構成する方法及び装置に関する。
自然語を入力処理する技術の中で、音声テキスト変換(STT、Speech−To−Text)は音声をテキストに変換する音声認識技術である。
このような音声認識技術は、リアルタイム性によって二つに分けることができる。一つは変換しようとする音声を一度に受けて一括変換する方式であり、他の一つはリアルタイムで生成される音声を所定単位(例えば、1秒未満の単位)で受けてリアルタイムで変換する方式である。
その中、一括変換方式は、通常入力された音声全体を認識した後、一度に結果を生成することである一方、リアルタイム変換方式は音声認識の結果を生成する時点を定義しなければならない。
リアルタイム変換方式のための認識結果生成時点を定義する方法は大きく3つの方法がある。第一、特別な終了信号(例えば、認識/通話終了ボタン操作など)が入力された時点に認識結果を生成することができる。第二、一定長さ(例えば、0.5秒)以上の黙音などのようなEPD(End Point Detection)が発生した時点に認識結果を生成することができる。第三、一定時間ごとに認識結果を生成することができる。
その中で、認識結果生成時点を定義する三番目の方式は、認識結果生成時点が連結された言葉が終わっていない時点、即ち話している途中でもある不完全な特性がある。そこで、正式な結果を生成する時よりは一定時点以後から現在まで認識された結果を臨時に得ようとする時に主に使われ、このようにして得た結果は完了された認識結果ではなく、不完全結果(Partial Result)と言う。
このような不完全結果はEPD境界を単位とする認識結果と違って、現在生成された結果に以前の生成結果が含まれていることがある。例えば、EPD単位認識結果は、「A、B、C、D、E、F、G、H」を認識するために、「A、B、C」、「D、E」、「F、G、H」という結果を生成するが、不完全結果は、「A」、「A B」、「A B C」、「D」、「D、E」、「F」、「F、G」、「F、G、H」のようにEPDが発生しない限り通常過去生成結果を含む。
一方、音声認識技術は、音声認識の正確度が最近にはかなり高くなったが、話者が多数の対話を認識する場合には二人以上が同時に話す状況での言葉が重なる区間での音声認識問題や、どの声が誰の声なのかを区分しなければならない話者識別問題などの困難がある。
そこで、常用システムでは話者別にそれぞれの入力装置を用いることにより話者別に音声をそれぞれ認識して話者別音声認識データを生成及び獲得する方式が利用されている。
このように、音声対話に対して話者別に音声認識データを生成及び獲得する場合、獲得された話者別音声認識データを対話形式に再構成する必要があり、話者別音声認識データを対話形式に再構成する技術は持続的に研究されている。
(特許文献1)韓国公開特許公報第10−2014−0078258号(2014.6.25.公開)
一実施例によれば、音声対話に対する話者別音声認識データを対話形式に再構成するにおいて、実際対話の流れに最大限近い対話構成を提供する音声対話再構成方法及び装置を提供する。
本発明が解決しようとする課題は以上で言及したことに制限されず、言及されなかったまた他の解決しようとする課題は以下の記載から本発明が属する通常の知識を有する者に明確に理解され得る。
第1観点による音声対話再構成装置の音声対話再構成方法は、音声対話に対する話者別音声認識データを獲得するステップと、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む。
第2観点による音声対話再構成装置は、音声対話が入力される入力部と、前記入力部を通じて入力された前記音声対話に対する音声認識を処理する処理部とを含み、前記処理部は、前記音声対話に対する話者別音声認識データを獲得し、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割し、前記分割された複数のブロックを話者と関係なく時刻順に整列し、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合し、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成する。
第3観点によれば、コンピュータープログラムを記憶しているコンピュータ読み取り可能な記録媒体は、前記コンピュータープログラムがプロセッサーによって実行される場合、音声対話に対する話者別音声認識データを獲得するステップと、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む。
第4観点によれば、コンピュータ読み取り可能な記録媒体に記憶されているコンピュータープログラムは、プロセッサーによって実行される場合、音声対話に対する話者別音声認識データを獲得するステップと、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む。
一実施例によれば、音声対話に対する話者別音声認識データを対話形式に再構成するにおいて、実際対話の流れに最大限に近い対話構成を提供することができる。
そして、音声対話中に一定時間ごとに生成する音声認識結果である不完全結果(Partial Result)を反映して対話を再構成するので、リアルタイムに変換された対話を確認することができ、リアルタイム音声認識結果を反映するので、このような音声認識結果を画面に出力する時、一度に更新される対話の量が少なくて対話の構成が崩れたり、画面の中で読む位置の変化程度が比較的少なくて高い可読性と認知性を提供するという効果を奏する。
一実施例による音声対話再構成装置の構成図である。 一実施例による音声対話再構成方法を説明するための流れ図である。 一実施例による音声対話再構成方法の中で話者別に音声認識データを獲得する過程を説明するための流れ図である。 一実施例による音声対話再構成装置による音声対話再構成結果を例示した図面である。
本発明の利点及び特徴、そしてそれらを達成する方法は添付される図面とともに後述される実施例によって明確になり得る。しかしながら、本発明は以下で開示される実施例に限定されるのではなく、互いに異なる多様な形態に具現されることができ、ただし、本実施例は本発明の開示が完全になるようにし、本発明が属する技術分野において通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によって定義されるだけである。
本明細書で用いられる用語について簡略に説明し、本発明について具体的に説明する。
本発明で用いられる用語は本発明での機能を考慮しながらできるだけ現在広く用いられる一般的な用語を選択したが、これは当該分野における技術者の意図または判例、新しい技術の出現などによって異なる場合がある。また、特定の場合は出願人が任意に選定した用語もあり、この場合に該当する発明の説明の部分でその意味について詳しく記載する。従って、本発明で用いられる用語は単純に用語の名称ではない、その用語が持つ意味と本発明の全般にわたった内容に基づいて定義されなければならない。
明細書全体において、ある部分がある構成要素を「含む」とする場合、これは特に反対される記載がない限り他の構成要素を除くのではなく、他の構成要素をさらに含むことができることを意味する。
また、明細書で用いられる「部」という用語は、ソフトウェアまたはFPGAやASICのようなハードウェア構成要素を意味し、「部」はある役割を果たすだけでなく、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」はアドレシングすることができる記憶媒体にあるように構成されることもでき、一つまたはその以上のプロセッサーを再生させるように構成されることもできる。従って、一例として「部」は複数のソフトウェア構成要素、複数の客体志向ソフトウェア構成要素、複数のクラス構成要素及び複数のタスク構成要素のような複数の構成要素と、複数のプロセッサー、複数の関数、複数の属性、複数のプロシージャ、複数のサブルーチン、複数のプログラムコードの複数のセグメント、複数のドライバー、ファームウエア、マイクロコード、回路、データ、データベース、複数のデータ構造、複数のテーブル、複数のアレイ及び複数の変数を含む。複数の構成要素と複数の「部」の中で提供される機能はより少ない数の構成要素及び複数の「部」で結合されたり、複数の追加的構成要素と複数の「部」にさらに分離されることができる。
以下では添付した図面を参考して本発明の実施例について本発明が属する技術分野において通常の知識を有する者が容易に実施することができるように詳しく説明する。そして、図面で本発明を明確に説明するために説明と関係のない部分は省略する。
図1は一実施例による音声対話再構成装置の構成図である。
図1によれば、音声対話再構成装置100は、入力部110、及び処理部120を含み、出力部130及び/または記憶部140をさらに含むことができる。処理部120は話者別データ処理部121、ブロック分割部122、ブロック整列部123、ブロック併合部124及び対話再構成部125を含むことができる。
入力部110は音声対話が入力される。このような入力部110は音声対話による音声データを話者別にそれぞれ分離して入力されることができる。例えば、入力部110は話者の数と一対一に対応する数のマイクロフォン(Microphone)を含むことができる。
処理部120は入力部110を通じて入力された音声対話に対する音声認識を処理する。例えば、処理部120はマイクロプロセッサー(Microprocessor)などのようなコンピュータ演算手段を含むことができる。
処理部120の話者別データ処理部121は音声対話に対する話者別音声認識データを獲得する。例えば、話者別データ処理部121は、ASR(Automatic Speech Recognition)を含むことができ、ASRは入力部110を通じて入力された話者別音声データに対して前処理過程を通じて雑音を除いた後文字列を抽出することができる。このような話者別データ処理部121は話者別音声認識データを獲得する場合において、複数の認識結果生成時点を適用することができる。例えば、話者別データ処理部121は音声対話に対してEPD(End Point Detection)単位に話者別第1認識結果を生成し、また既設定時間ごとに話者別第2認識結果を生成することができる。例えば、話者別第2認識結果は話者別第1認識結果を生成するEPDが最後に発生された後に生成されたものでもあり得る。そして、話者別データ処理部121は話者別第1認識結果と話者別第2認識結果を重なり及び重複することなく話者別に集めて初めて話者別音声認識データを生成することができる。勿論、話者別データ処理部121は話者別音声認識データを獲得するにおいて単一の認識結果生成時点を適用することもできる。例えば、話者別第1認識結果と話者別第2認識結果の中の何れか一つのみ生成することもできる。
処理部120のブロック分割部122は話者別データ処理部121によって獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割する。例えば、既設定された分割基準は一定時間以上の黙音区間や前トークンとの形態素的特性であり得る。
処理部120のブロック整列部123はブロック分割部122によって分割された複数のブロックを話者と関係なく時刻順に整列する。
処理部120のブロック併合部124はブロック整列部123によって整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合する。
処理部120の対話再構成部125はブロック併合部124による併合の結果が反映された複数のブロックを時刻順と話者を区分して対話形式に再構成する。
出力部130は処理部120による処理結果を出力する。例えば、出力部130は出力インターフェースを含むことができ、処理部120から提供された変換データを処理部120の制御によって出力インターフェースに連結されている他の電子装置に出力することができる。または、出力部130はネットワークカードを含むことができ、処理部120から提供された変換データを処理部120の制御によってネットワークを通じて送信することもできる。または、出力部130は処理部120による処理結果を画面に表示することができる表示装置を含むこともでき、対話再構成部125によって対話形式に再構成された音声対話に対する音声認識データを、話者を区分して時間順別に画面に表示することができる。
記憶部140には音声対話再構成装置100のための運営体制プログラムが記憶されることができ、処理部120による処理結果が記憶されることもできる。例えば、記憶部140はハードディスク、フロッピーディス及び磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディス(floptical disk)のような磁気―光媒体(magneto−optical media)、フラッシュメモリー(flash memory)のようなプログラム命令語を記憶して実行するように特別に構成されたハードウェア装置などのようにコンピュータ読み取り可能な記録媒体であり得る。
図2は一実施例による音声対話再構成方法を説明するための流れ図であり、図3は一実施例による音声対話再構成方法の中で話者別に音声認識データを獲得する過程を説明するための流れ図であり、図4は一実施例による音声対話再構成装置による音声対話再構成結果を例示した図面である。
以下、図1〜図4を参照して本発明の一実施例による音声対話再構成装置100で実行する音声対話再構成方法について詳しく説明する。
まず、入力部110は音声対話による音声データを話者別にそれぞれ分離して入力され、入力された話者別音声データを処理部120に提供する。
そして、処理部120の話者別データ処理部121は音声対話に対する話者別音声認識データを獲得する。例えば、話者別データ処理部121に含まれるASRは入力部110を通じて入力された話者別音声データに対して前処理過程を通じて雑音を除いた後文字列を抽出することで文字列からなる話者別音声認識データを獲得することができる(S210)。
ここで、話者別データ処理部121は話者別音声認識データを獲得するにおいて、複数の認識結果生成時点を適用する。話者別データ処理部121は、音声対話に対してEPD単位に話者別第1認識結果を生成する。同時に、話者別データ処理部121は話者別第1認識結果を生成するEPDが最後に発生された後、既設定時間ごとに話者別第2認識結果を生成する(S211)。そして、話者別データ処理部121は話者別第1認識結果と話者別第2認識結果を重なり及び重複することなく話者別に集めて最終的に話者別音声認識データを生成する(S212)。
このように、話者別データ処理部121によって獲得された話者別音声認識データは追後対話再構成部125によって対話形式に再構成される。ところが、音声と違ってテキスト形態の対話形式を再構成する場合、第1話者が話をしている間に第2話者の言葉が短いながらも出てしまう状況を仮定すれば、このような状況をテキストで表現しようとする場合、途中に言葉を切るか、どこを切るかなどを決めなければならない。例えば、全体対話に対して黙音区間を基準として言葉を切った後、全ての話者のデータを集めて時間順に整列することができる。この場合、EPDを基準として追加的に認識されたテキストが発生する場合、その長さだけが一度に画面に追加されて使用者が読んでいた位置が崩れたり、対話の構成が変わる問題も発生する。また、この時、対話の構成単位を自然にしない場合、対話の文脈が崩れたりする。例えば、第1話者が連続に話している途中に第2話者が「はい」と言った場合、「はい」は実際文脈の位置に表現されず、第1話者の連続する長い話の最後に付くこともできる。また、この時、リアルタイム性が加われば、話者が話をしており、認識もしているにもEPDが発生する前までは画面上で認識結果を確認することができない。むしろ第1話者が先に話をしたにも関らず、後で話をした第2話者の話が短くて先に終わったことから画面上では第1話者の話はなく、第2話者の話だけ表示される状況も発生する。このような様々な状況に対応するために、一実施例による音声対話再構成装置100は、ブロック分割部122による分割過程、ブロック整列部123による整列過程及びブロック併合部124による併合過程を経る。分割過程と整列過程は元の対話の流れに合わせて話の間間に他の話者の話を挟み込むためのことであり、併合過程は挟み込みをするために実行した分割によって対話を構成する文章がとても短く切られることを防止するためである。
処理部120のブロック分割部122は話者別データ処理部121によって獲得された話者別音声認識データを既設定された分割基準によってトークン(例えば、単語/語節/形態素)間境界を利用して複数のブロックに分割して処理部120のブロック整列部122に提供する。例えば、既設定された分割基準は一定時間以上の黙音区間や前のトークンとの形態素的特性(例えば、語節間)であってもよく、ブロック分割部122は一定時間以上の黙音区間や前のトークンとの形態素的特性を分割基準として利用して話者別音声認識データを複数のブロックに分割することができる(S220)。
続いて、処理部120のブロック配置部123は、ブロック分割部122によって分割された複数のブロックを話者と関係なく時刻順に整列して処理部120のブロック併合部124に提供する。例えば、ブロック整列部123は、各ブロックの開始時刻を基準として整列することもでき、各ブロックの中間時刻を基準として整列することもできる(S230)。
そして、処理部120のブロック併合部124は、ブロック整列部123によって整列された複数のブロックに対して同一話者の連続発話による複数のブロックを併合し、ブロック併合の結果が反映された話者別音声認識データを対話再構成部125に提供する。例えば、ブロック併合部124は前のブロックとの間に存在する一定時間以下の黙音区間や前のブロックとの構文特性(例えば、前のブロックが文章の終わりの場合など)を利用して、同一話者の連続発話を判別することができる(S240)。
次に、処理部120の対話再構成部125はブロック併合部124による併合の結果が反映された複数のブロックを時刻順と話者を区分して対話形式に再構成し、再構成された音声認識データを出力部130に提供する(S250)。
それにより、出力部130は処理部120による処理結果を出力する。例えば、出力部130は処理部120から提供された変換データを処理部120の制御によって出力インターフェースに連結されている他の電子装置に出力することができる。または、出力部130は処理部120から提供された変換データを処理部120の制御によってネットワークを通じて送信することもできる。または、出力部130は処理部120による処理結果を、図4の例示のように、表示装置の画面に表示することができる。図4の例示のように、出力部130は対話再構成部125によって対話形式に再構成された音声対話に対する音声認識データを、話者を区分して時間順別に画面に表示することができる。ここで、出力部130は再構成された音声認識データを更新出力する時、ステップ(S211)で生成された話者別第1認識結果が反映された画面を更新出力することができる。即ち、ステップ(S250)で対話再構成部125が、話者別第1認識結果が反映された音声認識データを出力部130に提供することである(S260)。
一方、前述した一実施例による音声対話再構成方法に含まれたそれぞれのステップは、このようなステップを実行するようにするための命令語を含むコンピュータープログラムを記録するコンピュータ読み取り可能な記録媒体で具現されることができる。
また、前述した一実施例による音声対話再構成方法に含まれたそれぞれのステップは、このようなステップを実行するための命令語を含むようにプログラムされた、コンピュータ読み取り可能な記録媒体に記憶されたコンピュータープログラムの形態で具現されることができる。
ここまで説明したように、本発明の実施例によれば、音声対話に対する話者別音声認識データを対話形式に再構成するにおいて、実際対話の流れに最大限に近い対話構成を提供することができる。
そして、音声対話中に一定時間ごとに生成する音声認識結果である不完全結果を反映して対話を再構成するので、リアルタイムに変換された対話を確認することができ、リアルタイム音声認識結果を反映するので、このような音声認識結果を画面に出力する時に一度に更新される対話の量が少なくて対話の構成が崩れたり、画面中に読む位置の変化程度が比較的少なくて高い可読性及び認知性を提供する。
本発明に添付された各フロー図の各ステップの組み合わせは、コンピュータープログラムインストラクションによって実行されることもできる。これらコンピュータープログラムインストラクションは汎用コンピュータ、特殊用コンピュータまたはその他プログラム可能なデータプロセッシング装備のプロセッサーに搭載されることができるので、コンピュータまたはその他プログラム可能なデータプロセッシング装備のプロセッサーを通じて実行されるそのインストラクションがフロー図の各ステップで説明された機能を実行する手段を生成する。これらコンピュータープログラムインストラクションは特定方式で機能を具現するために、コンピュータまたはその他プログラム可能なデータプロセッシング装備を志向することができるコンピュータ利用可能またはコンピュータ読み取り可能な記録媒体に記憶されることも可能であるので、そのコンピュータ利用可能またはコンピュータ読み取り可能な記録媒体に記憶されたインストラクションはフロー図の各ステップで説明された機能を実行するインストラクション手段を内包する製造品目を生産することも可能である。コンピュータープログラムインストラクションはコンピュータまたはその他プログラム可能なデータプロセッシング装備上に搭載されることも可能であるので、コンピュータまたはその他プログラム可能なデータプロセッシング装備上で一連の動作ステップが実行されてコンピュータで実行されるプロセスを生成してコンピュータまたはその他プログラム可能なデータプロセッシング装備を実行するインストラクションは流れ図の各ステップで説明された機能を実行するための多数のステップを提供することも可能である。
また、各ステップは特定された複数の論理的機能を実行するための一つ以上の実行可能なインストラクションを含むモジュール、セグメントまたはコードの一部を現わすことができる。また、いくつかの実施例ではステップで言及された機能が順序を逸脱して発生することも可能であることに注目すべきである。例えば、次いで図示されている二つのステップは実質的に同時に実行されることも可能であり、またはその複数のステップが時々該当する機能によって逆順に実行されることも可能である。
以上の説明は本発明の技術思想を例示的に説明したことに過ぎず、本発明が属する技術分野において通常の知識を有する者であれば本発明の本質的品質から逸脱しない範囲内で多様な修正及び変形が可能である。従って、本発明に開示された実施例は本発明の技術思想を限定するためではなく、説明するためのものであって、このような実施例によって本発明の技術思想の範囲が限定されるのではない。本発明の保護範囲は特許請求範囲によって解釈されるべきであり、それと均等な範囲内にある全ての技術思想は本発明の権利範囲に含まれることと解釈されるべきである。
100 音声対話再構成装置
110 入力部
120 処理部
121 話者別データ処理部
122 ブロック分割部
123 ブロック整列部
124 ブロック併合部
125 対話再構成部
130 出力部
140 記憶部

Claims (10)

  1. 音声対話再構成装置の音声対話再構成方法において、
    音声対話に対する話者別音声認識データを獲得するステップと、
    前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
    前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
    前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、
    前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップと、を含む音声対話再構成方法。
  2. 前記話者別音声認識データを獲得するステップは、
    前記音声対話に対してEPD(End Point Detection)単位に生成された話者別第1認識結果と既設定時間ごとに生成された話者別第2認識結果を獲得するステップと、
    前記話者別第1認識結果と前記話者別第2認識結果を重なり及び重複することなく集めて前記話者別音声認識データを生成するステップと、を含む請求項1に記載の音声対話再構成方法。
  3. 前記話者別第2認識結果は最後のEPDが発生された後に生成されたことである請求項2に記載の音声対話再構成方法。
  4. 前記既設定された分割基準は、一定時間以上の黙音区間や前のトークンとの形態素的特性である請求項1に記載の音声対話再構成方法。
  5. 前記併合するステップは、一定時間以下の黙音区間や前のブロックとの構文特性によって前記同一話者の連続発話を判別する請求項1に記載の音声対話再構成方法。
  6. 前記対話形式に再構成された音声認識データを画面に出力するステップをさらに含み、前記画面の更新時に前記話者別音声認識データを一括更新するか前記話者別第1認識結果を反映する更新を実行する請求項2に記載の音声対話再構成方法。
  7. 音声対話が入力され入力部と、
    前記入力部を通じて入力された前記音声対話に対する音声認識を処理する処理部とを含み、
    前記処理部は、
    前記音声対話に対する話者別音声認識データを獲得し、前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割し、前記分割された複数のブロックを話者と関係なく時刻順に整列し、前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合し、前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成する音声対話再構成装置。
  8. 前記処理部は、
    前記音声対話に対してEPD(End Point Detection)単位に生成された話者別第1認識結果と既設定時間ごとに生成された話者別第2認識結果を獲得し、
    前記話者別第1認識結果と前記話者別第2認識結果を重なり及び重複することなく集めて前記話者別音声認識データを生成する請求項7に記載の音声対話再構成装置。
  9. コンピュータープログラムを記憶しているコンピュータ読み取り可能な記録媒体において、
    前記コンピュータープログラムは、プロセッサーによって実行される場合、
    音声対話に対する話者別音声認識データを獲得するステップと、
    前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
    前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
    前記整列された複数のブロックに対して同一話者の連続発話による複数のロックを併合するステップと、
    前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む、コンピュータ読み取り可能な記録媒体。
  10. コンピュータ読み取り可能な記録媒体に記憶されているコンピュータープログラムにおいて、
    前記コンピュータープログラムは、プロセッサーによって実行される場合、
    音声対話に対する話者別音声認識データを獲得するステップと、
    前記獲得された話者別音声認識データを既設定された分割基準によってトークン間境界を利用して複数のブロックに分割するステップと、
    前記分割された複数のブロックを話者と関係なく時刻順に整列するステップと、
    前記整列された複数のブロックに対して同一話者の連続発話による複数のブロックを併合するステップと、
    前記併合の結果が反映された複数のブロックを前記時刻順と話者を区分して対話形式に再構成するステップとを含む方法を前記プロセッサーが実行するようにするための命令語を含む、コンピュータープログラム。
JP2021038052A 2020-03-10 2021-03-10 音声対話再構成方法及び装置 Pending JP2021144218A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200029826A KR102208387B1 (ko) 2020-03-10 2020-03-10 음성 대화 재구성 방법 및 장치
KR10-2020-0029826 2020-03-10

Publications (2)

Publication Number Publication Date
JP2021144218A true JP2021144218A (ja) 2021-09-24
JP2021144218A5 JP2021144218A5 (ja) 2024-03-14

Family

ID=74239261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021038052A Pending JP2021144218A (ja) 2020-03-10 2021-03-10 音声対話再構成方法及び装置

Country Status (5)

Country Link
US (1) US20210327446A1 (ja)
EP (1) EP3879526A1 (ja)
JP (1) JP2021144218A (ja)
KR (1) KR102208387B1 (ja)
CN (1) CN113450772B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102577346B1 (ko) * 2021-02-08 2023-09-12 네이버 주식회사 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템
KR20230050807A (ko) 2021-10-08 2023-04-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102598304B1 (ko) * 2022-06-09 2023-11-03 주식회사 엘솔루 Stt 변환 방법 및 장치
KR102526173B1 (ko) * 2022-12-07 2023-04-26 주식회사 하이 음성 데이터에서 특정 화자의 음성을 추출하는 기법
KR102539256B1 (ko) * 2022-12-07 2023-06-02 주식회사 하이 음성 데이터에서 특정 화자의 음성을 구분하는 모델을 학습시키는 기법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2838158C3 (de) * 1978-09-01 1982-12-16 Jagenberg-Werke AG, 4000 Düsseldorf Beleimungsvorrichtung für eine Etikettiermaschine
US7133521B2 (en) * 2002-10-25 2006-11-07 Dilithium Networks Pty Ltd. Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
US20040162724A1 (en) * 2003-02-11 2004-08-19 Jeffrey Hill Management of conversations
KR20050059766A (ko) * 2003-12-15 2005-06-21 엘지전자 주식회사 동적 시간 워핑을 이용한 음성 인식 방법
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
JP2010230695A (ja) * 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
KR20140078258A (ko) 2012-12-17 2014-06-25 한국전자통신연구원 대화 인식을 통한 이동 단말 제어 장치 및 방법, 회의 중 대화 인식을 통한 정보 제공 장치
US10504509B2 (en) * 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
EP3349125B1 (en) * 2015-10-09 2019-11-20 Mitsubishi Electric Corporation Language model generation device, language model generation method, and recording medium
US20180018974A1 (en) * 2016-07-16 2018-01-18 Ron Zass System and method for detecting tantrums
US10558421B2 (en) * 2017-05-22 2020-02-11 International Business Machines Corporation Context based identification of non-relevant verbal communications
KR102199423B1 (ko) * 2018-04-27 2021-01-06 아토머스 주식회사 심리 상담 데이터를 기계 학습한 자동 대화 장치 및 그 방법
US10636427B2 (en) * 2018-06-22 2020-04-28 Microsoft Technology Licensing, Llc Use of voice recognition to generate a transcript of conversation(s)
KR20200011198A (ko) * 2018-07-24 2020-02-03 주식회사 리턴제로 대화형 메시지 구현 방법, 장치 및 프로그램

Also Published As

Publication number Publication date
KR102208387B1 (ko) 2021-01-28
US20210327446A1 (en) 2021-10-21
EP3879526A1 (en) 2021-09-15
CN113450772A (zh) 2021-09-28
CN113450772B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
JP2021144218A (ja) 音声対話再構成方法及び装置
US11900943B2 (en) System and method of text zoning
JP6837298B2 (ja) 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置
CN105788589B (zh) 一种音频数据的处理方法及装置
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US9679564B2 (en) Human transcriptionist directed posterior audio source separation
Havard et al. Speech-coco: 600k visually grounded spoken captions aligned to mscoco data set
JPH05216618A (ja) 音声対話システム
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
JP4729902B2 (ja) 音声対話システム
JP2021144218A5 (ja)
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
KR102020773B1 (ko) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
KR102474690B1 (ko) 회의록 작성 방법 및 장치
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
US20230223032A1 (en) Method and apparatus for reconstructing voice conversation
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240306

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240306

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20240306