JP2018106148A - 多重話者音声認識修正システム - Google Patents

多重話者音声認識修正システム Download PDF

Info

Publication number
JP2018106148A
JP2018106148A JP2017225548A JP2017225548A JP2018106148A JP 2018106148 A JP2018106148 A JP 2018106148A JP 2017225548 A JP2017225548 A JP 2017225548A JP 2017225548 A JP2017225548 A JP 2017225548A JP 2018106148 A JP2018106148 A JP 2018106148A
Authority
JP
Japan
Prior art keywords
text
speaker
voice
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017225548A
Other languages
English (en)
Other versions
JP6463825B2 (ja
Inventor
アン,ムンハック
Munhak An
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SORIZAVA CO Ltd
Original Assignee
SORIZAVA CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SORIZAVA CO Ltd filed Critical SORIZAVA CO Ltd
Publication of JP2018106148A publication Critical patent/JP2018106148A/ja
Application granted granted Critical
Publication of JP6463825B2 publication Critical patent/JP6463825B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】多重話者に対して音声認識を行う場合、発言した話者を簡単な方法で判別し、音声認識されたテキストを容易に修正するための多重話者音声認識修正システムを提供する。【解決手段】多重話者音声認識修正システム600は、複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する音声信号検出部と100、音声信号検出部100からそれぞれの音声セッションを伝達されてそれぞれのテキストに変換する音声認識部200と、音声認識部200から音声認識されたそれぞれのテキストを伝達されて音声信号が入力される時点の順に羅列して表示し、音声認識されたテキストの修正のための情報を入力されるテキスト修正部300とを含む。【選択図】図1

Description

本発明は、音声認識修正システムに関し、より詳細には、多重話者に対して音声認識を行う場合、発言した話者を簡単な方法で判別し、音声認識されたテキストを容易に修正するための多重話者音声認識修正システムに関する。
音声認識技術は、コンピュータがマイクのような音声センサーを介して得た音響学的信号を単語や文章に変換させる技術をいう。
特許文献1には、音声認識に対する「移動通信端末の会議録作成方法」について開示している。
特許文献1に開示された移動通信端末の会議録作成方法は、テキストファイルを閲覧するためのディスプレイ部;外部から複数の話者の音声を入力されるマイクロホン部;話者の音声情報およびこれに対応する話者情報を保存する保存部;入力された音声の特定の部分を録音する音声録音部と、録音された音声ファイルを周波数帯域を基準として話者別に分離する音声分離部と、分離した音声ファイルとあらかじめ保存された話者の音声情報との一致可否を判断し、該判断結果、分離した音声ファイルと前記あらかじめ保存された話者の音声情報とが一致する場合、話者情報をもとに前記分離した音声ファイルをテキストファイルに変換する音声認識部と、変換されたテキストファイルの保存、閲覧および送信を管理するファイル管理部とを備える制御部;および変換されたテキストファイルを他のユーザに送信する無線送受信部;を含み、制御部は、ディスプレイ部を介して変換されたテキストファイルが話者情報を基準として区分される複数の話者間の時系列的な対話情報形態でディスプレイされるように制御する。
しかしながら、前記移動通信端末の会議録作成方法は、音声ファイルの周波数帯域を基準として話者を分離する複雑なアルゴリズムを通じて話者を判別しなければならないという問題点があった。
このような問題点を解決するために、特許文献2には、簡単な方法で複数の話者を判別できる「会議録管理装置」を開示している。
特許文献2に開示された会議録管理装置は、多数のマイクロから入力された音声信号から話者を判別するが、基準音量と比較した各マイクの音量設定の水準に応じて、各マイクロから入力された音声信号の音量を基準音量水準に調整して正規化し、正規化した音声信号から話者を判別する話者判別部と、話者判別部により判別された話者の音声信号を保存する音声信号処理部と、会議録を生成し、生成した会議録に話者判別部により判別された話者の音声信号から認識される話者の発言内容をテキストに変換して会議録に記録する会議録処理部と、会議録処理部により生成された会議録を保存する会議録保存部とを含む。
すなわち前記会議録管理装置は、複数のマイクを各話者に具備させて、簡単な方法で話者を判別できる内容を開示している。
なお、音声認識は、音声認識エンジンを保有している音声認識関連業者を介して代理実行される。このような音声認識エンジンは、入力される音声の時間を通じて費用を精算する。
この際、前述した会議録管理装置のように、複数のマイクを介して、各マイクで入力されるすべての音声を伝達する場合、音声認識費用が増加すると共に、データ交換を行うに際して、データの肥大化に伴う問題点があった。
韓国特許公開第2008−0037402号公報 韓国特許公開第2014−0077514号公報
したがって、本発明の目的は、多数の話者に対して音声認識を行うに際して、発言した話者を簡単な方法で判別しつつ、低費用で音声認識を行うことができる多重話者音声認識修正システムを提供することにある。
また、本発明の他の目的は、多数の話者に対して音声認識を行うに際して、音声認識されたテキストを容易に修正できる多重話者音声認識修正システムを提供することにある。
本発明による多重話者音声認識修正システムは、複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、前記音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する音声信号検出部と、前記音声信号検出部からそれぞれの音声セッションを伝達されてそれぞれのテキストに変換する音声認識部と、前記音声認識部から音声認識されたそれぞれのテキストを伝達されて、前記音声信号が入力される時点の順に羅列して表示し、音声認識されたテキストの修正のための情報を入力されるテキスト修正部とを含む。
本発明による多重話者音声認識修正システムにおいて、前記音声セッションは、時間情報およびマイク識別情報を含むことを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記マイク識別情報を変更するための話者情報を入力され、時間帯別に前記話者情報と音声認識されたテキストを表示することを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記音声認識検出部から前記音声セッションを伝達されて、前記音声認識信号が入力される時点の順に合成する音声合成部をさらに含むことを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声合成部から合成された音声を前記音声認識されたテキストと共に出力することを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記複数の話者を撮影した映像を出力し、前記映像に各々の話者を識別できる話者タグを表示することを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声認識されたテキストを表示しつつ、表示されるテキストの話者情報とマッチングされる話者タグを識別するように強調するリアルタイム入力モードと、音声認識されたテキストの修正のための情報が入力されると、修正されるテキストの話者情報とマッチングされる話者タグを識別するように強調する修正モードと、各話者タグに対して選択信号が入力されると、選択された話者タグとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力する話者別プレイモードとを含むことを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声認識されたテキストの修正のための情報を入力されると、テキストの表示を一時停止し、修正を完了した後、既定の時間だけ以前に戻ってテキスト表示を再開することを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、前記音声認識部から伝達されたテキストに対して語尾の有無を判断して、文章記号を表示することを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記テキスト修正部は、各マイク識別情報に該当する話者の特徴情報を前記音声認識部にあらかじめ伝達し、前記音声認識部は、前記テキスト修正部から伝達された前記特徴情報を反映して修正されたテキストを前記テキスト修正部に伝達することを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記特徴情報は、方言、外来語、感動詞または嘆詞を含み、前記音声認識部は、前記方言を標準語に変換したり、外来語を固有語に変換したり、話者の固有習慣である感動詞または嘆詞を削除して前記テキスト修正部に伝達することを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記複数の話者の各々に音声認識部から音声認識された結果と前記テキスト修正部から修正された結果を表示する検収部をさらに含むことを特徴とする。
本発明による多重話者音声認識修正システムにおいて、前記検収部は、修正のための情報を入力されたり、検収完了信号を入力されて、前記テキスト修正部に伝達することを特徴とする。
本発明による多重話者音声認識修正システムは、複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出し、検出された音声セッションのみを音声認識部がテキストに変換を行うことによって、発言した話者を簡単な方法で判別しつつ、低費用で音声認識を行うことができる。
また、本発明による多重話者音声認識修正システムは、音声認識されたテキストを修正するテキスト修正部が、話者が発言した音声を音声認識されたテキストと共に出力することによって、修正者が明確に話者の音声を認知した状態で修正できる。
図1は、本発明の実施形態に係る多重話者音声認識修正システムの構成を示すブロック図である。 図2は、本発明の実施形態に係る音声信号検出部の音声信号検出を説明するための図である。 図3は、本発明の実施形態に係る音声合成部の音声合成過程を示す模式図である。 図4は、本発明の実施形態に係る検収部に表示される画面を示す例示図である。 図5は、本発明の実施形態に係るテキスト修正部の構成を示すブロック図である。 図6は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。 図7は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。 図8は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。
下記の説明では、本発明の実施形態を理解するのに必要な部分だけが説明され、その他の部分の説明は、本発明の要旨を不明にしないように省略されることを留意しなければならない。
以下で説明される本明細書及び請求範囲に使用された用語や単語は、通常的または辞書的な意味に限定して解釈されてはならず、発明者は、自分の発明を最も最善の方法で説明するための用語の概念として適切に定義できるという原則に基づいて、本発明の技術的思想に符合する意味と概念として解釈されなければならない。したがって、本明細書に記載された実施形態と図面に示された構成は、本発明の最も好ましい一実施形態に過ぎず、本発明の技術的思想をすべて代弁するものではないので、本出願時点においてこれらを代替できる多様な均等物と変形例があり得ることを理解しなければならない。
以下、添付の図面を参照して本発明の実施形態をより詳細に説明する。
図1は、本発明の実施形態に係る多重話者音声認識修正システムの構成を示すブロック図であり、図2は、本発明の実施形態に係る音声信号検出部の音声信号検出を説明するための図である。
図1および図2を参照すると、本発明の実施形態に係る多重話者音声認識修正システム600は、音声信号検出部100と、音声認識部200と、テキスト修正部300とを含む。
音声信号検出部100は、複数のマイク1からそれぞれ音声信号を入力される。ここで、複数のマイク1は、複数の話者の各々が具備できる。例えば、第1マイクは、第1話者が具備でき、第2マイクは、第2話者が具備できる。すなわち複数の第1マイクを各々の話者が具備することによって、別途の話者を識別するためのアルゴリズムなしに、それぞれのマイクロから入力される音声信号を区分して話者を判別できる。
また、音声信号検出部100は、複数のマイク1から音声信号がそれぞれ入力されると、それぞれの音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する。すなわち音声信号検出部100は、図2に示されるように、マイク1からそれぞれ入力されるアナログ信号をデジタル信号に変更し、音声信号が入力される時点から入力が中止される時点を判別して検出することができる。ここで、音声信号の中止可否は、既定の時間以上で音声信号が入力されない場合、一つのセッションとして認知できる。
このように音声信号検出部100は、音声セッションが検出されると、音声セッションにマイクを識別できるマイク識別情報と時間情報を含ませることができる。音声信号検出部100は、検出された音声セッションを音声認識部200とテキスト修正部300に伝達できる。ここで、音声信号検出部100は、マイク1から入力される信号から音声を入力されない時間は切り出し、実質的に音声を入力される時間の音声信号のみを音声認識部200またはテキスト修正部300に伝達できる。
なお、音声信号検出部100は、生成した音声セッションを音声認識信号が入力される時点の順に合成して音声認識部200に伝達できる。例えば、音声信号検出部100は、複数のマイク1で音声が重なる時点が発生する場合、音声信号が先に入力される時点を優先順位として定めて、先に入力される音声信号の末尾に次に入力される音声信号を貼り付けて合成して、一つの音声信号の形態で音声認識部200に伝達できる。
音声認識部200は、音声信号検出部100から複数のマイク1でそれぞれ入力される複数の音声セッションをそれぞれ伝達されて、テキストの形態に変換する。音声認識部200は、音声セッションが入力されると、音声セッションから音声認識に必要な特徴ベクターを抽出する。ここで、特徴ベクターは、音声学的特性は十分に示し、その他の要素、すなわち背景雑音、話者の差異、発音態度などには鈍感に設定される。その後、音声認識部200は、特徴ベクターが保存された単語モデル、すなわち各単語の音声学的特徴またはそれより短く音素単位の音響モデルとの比較を通じて可能な単語に対する場合を抽出するパターン分類過程を行う。
また、音声認識部200は、パターン分類過程を経た結果を一連の候補単語または候補音素の形態で文章単位の検索を実施する。ここで、音声認識部200は、候補単語または候補音素の情報に基づいて文法構造、全体的な文章文脈、特定の主題への符合可否を判断して、どのような単語や音素が最も適切であるかを判断する。音声認識部200は、このような過程を経て完成されたテキストをテキスト修正部300に伝達できる。
テキスト修正部300は、音声認識部200から音声認識されたテキストを伝達される。この際、テキスト修正部300は、音声認識部200からそれぞれの音声セッションを音声認識したそれぞれのテキストを伝達され、音声セッションに含まれた時間情報とマイク識別情報を用いて音声信号が入力される時点の順に羅列し、各テキストにマッチングされるマイク識別情報を含ませることができる。
また、テキスト修正部300は、マイクを各々具備している複数の話者に対する映像と、複数の話者が発言した音声を聴覚的に再生して修正者に提供できる。また、テキスト修正部300は、修正者から音声認識されたテキストを修正するための情報を入力され、入力された情報を用いてて誤認識されたテキストを修正できる。
このように、本発明の実施形態に係る多重話者音声認識修正システム600は、複数の話者の各々が具備する複数のマイク1からそれぞれ音声信号が入力されると、音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出し、検出された音声セッションのみを音声認識部がテキストに変換を行うことによって、発言した話者を簡単な方法で判別して低費用で音声認識を行うことができる。
また、本発明の実施形態に係る多重話者音声認識修正システム600は、音声認識されたテキストを修正するテキスト修正部300が、話者が発言した音声を音声認識されたテキストと共に出力することによって、修正者が明確に話者の音声を認知した状態で修正できる。
なお、多重話者音声認識修正システム600は、音声信号検出部100から検出された音声セッションを合成する音声合成部400と、複数の話者の各々に音声認識部200から音声認識された結果とテキスト修正部300から修正された結果を表示する検収部500とをさらに含むことができる。
なお、図3は、本発明の実施形態に係る音声合成部の音声合成過程を示す模式図であり、図4は、本発明の実施形態に係る検収部に表示される画面を示す例示図である。
図1〜図4を参照すれば、音声合成部400は、音声認識検出部100から音声セッションを伝達されて、音声認識信号が入力される時点の順に合成して、テキスト修正部300に伝達できる。例えば、音声合成部400は、複数のマイク1で音声が重なる時点が発生する場合、音声信号が先に入力される時点を優先順位として定めて、先に入力される音声信号の末尾に次に入力される音声信号を貼り付けて合成することができる。
すなわち図4に示されるように、第1マイクでt0で音声信号が入力されて、t1で音声信号が中止される場合、t0〜t1は、一つの音声セッションになり得る。ここで、第2マイクで他の音声セッションt2〜t3が入力され、第3マイクでさらに他の音声セッションt4〜t5が同時間に入力されると、重なる音声の部分が発生する。
音声合成部400は、このような重なる音声セッションを、音声信号が先に入力される時間の順に、t0〜t1、t4〜t5およびt2〜t3の順に合成して、テキスト修正部300に伝達できる。
ここで、テキスト修正部300は、音声合成部400から合成された音声を音声認識されたテキストと共に出力できる。
検収部500は、複数の話者の各々に音声認識部200から音声認識された結果とテキスト修正部300から修正された結果を表示できる。例えば、検収部500は、モニターのようなディスプレイ装置と、キーボードなどのような入力装置で構成され得る。例えば、検収部500は、音声認識されたテキストを表示し、表示されたテキストのうちテキスト修正部300により修正された部分を識別可能に表示することによって、話者が音声認識された結果を直接見て検収できるようにすることができる。ここで、検収部500は、話者から修正のための情報を入力されて直接テキストを修正したり、検収完了信号を入力されてテキスト修正部300に伝達することができる。
以下、本発明の実施形態に係るテキスト修正部について詳細に説明する。
図5は、本発明の実施形態に係るテキスト修正部の構成を示すブロック図であり、図6〜図8は、本発明の実施形態に係るテキスト修正部の各モードを示す図である。
図5〜図8を参照すると、本発明の実施形態に係るテキスト修正部300は、入力部10、表示部20、保存部30、音声再生部40、通信部50および制御部60を含む。
入力部10は、数字および文字情報などの多様な情報を入力され、各種機能の設定およびテキスト修正部300の機能制御と関連して入力される信号を制御部60に伝達する。例えば、入力部10は、キーパッド、マウス、ジョイステックなどのような入力装置であってもよく、好ましくは、間違って認識された単語または文章を早く修正できる速記キーボードであってもよい。このような入力部10は、修正者から音声認識されたテキストの修正のための情報を入力され得る。ここで、修正者は、入力部10を介して音声認識されたテキストに修正のためのカーソルを表示部20上で移動させ、修正のための情報、すなわち修正された単語を入力して音声認識されたテキストを修正できる。
表示部20は、テキスト修正部300の機能実行中に発生する一連の動作状態および動作結果などに対する情報を表示する。また、表示部20は、テキスト修正部300のメニューおよびユーザが入力したユーザデータなどを表示できる。ここで、表示部20は、液晶表示装置(LCD、Liquid Crystal Display)、超薄膜液晶表示装置(TFT−LCD、Thin Film Transistor LCD)、発光ダイオード(LED、Light Emitting Diode、有機発光ダイオード(OLED、Organic LED)、アクティブマトリクス型有機発光ダイオード(AMOLED、Active Matrix OLED)、レチナディスプレイ(Retina Display)、フレキシブルディスプレイFlexible display)および3次元(3 Dimension)ディスプレイなどで構成され得る。
このような表示部20は、第1〜第6表示窓21、22、23、24、25、26を含むことができる。
まず、第1表示窓21は、マイクを着用している複数の話者に対する映像を表示できる。ここで、第1表示窓21は、映像の中で発言する話者を認知するための話者タグ21aを表示できる。ここで、話者タグ21aは、話者の頭の上や話者を認知できる位置に表示され得る。
第2表示窓22は、リアルタイム音声認識されるテキストを表示でき、第3表示窓23は、第2表示窓22からリアルタイム音声認識されるテキストを時間帯別に話者情報と共に表示できる。
第3表示窓23は、第2表示窓22からリアルタイム音声認識されるテキストを時間帯別に話者情報と共に表示し、チェック(CHK)項目を含んで修正者により修正されたテキストに対してチェック項目に表示できる。
第4表示窓24は、第3表示窓23に表示されたテキストを話者別に整理して表示できる。
第5表示窓25は、前述した音声合成部400から合成された音声を信号の形態で表示し、修正者が入力部10を介して所望の音声位置を指定するように支援できる。
第6表示窓26は、第1および第5表示窓25で表示される映像および音声を制御し得る多様なメニューを表示できる。例えば、第6表示窓26は、再生、早送り、録画などのメニューを表示できる。
保存部30は、テキスト修正部300の機能動作に必要な応用プログラムを保存する。ここで、保存部30は、ユーザの要請に応して各機能を活性化する場合、制御部60の制御下に当該応用プログラムを実行して各機能を提供する。ここで、保存部30は、各モード、すなわちリアルタイム入力モード、修正モードまたは話者別プレイモードを実行するためのプログラムを保存できる。また、保存部30は、修正者の修正便宜のための常用単語DBを保存できる。また、保存部30は、方言、外来語、感動詞または嘆詞を含む特徴情報DBを保存できる。
音声再生部40は、制御部60の制御によって音声信号検出部または音声合成部から音声セッションを伝達されて再生して、ユーザが聴取できるようにすることができる。例えば、音声再生部40は、聴覚的出力のためのスピーカーを含むことができる。
通信部50は、制御部60の制御によって各種通信方式を利用してデータを送受信する通信インターフェースを含み、音声信号検出部から音声セッションを伝達されたり、音声認識部から音声認識されたテキストを伝達され得る。また、通信部50は、検収部から検収されたテキストを伝達され得る。
制御部60は、音声認識部から音声認識されたそれぞれのテキストを伝達されて、音声信号が入力される時点の順に羅列して第2表示窓22に表示できる。
このような制御部60は、音声認識されたテキストを表示しつつ、表示されるテキストの話者情報とマッチングされる話者タグを識別するように強調するリアルタイム入力モードと、音声認識されたテキストの修正のための情報が入力されると、修正されるテキストの話者情報とマッチングされる話者タグを識別するように強調する修正モードと、各話者タグに対して選択信号が入力されると、選択された話者タグとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力する話者別プレイモードとを含む。
リアルタイム入力モードは、制御部60がリアルタイム音声認識部から音声認識されるテキストを第2表示窓22に表示し、第1表示窓21に複数の話者に対する映像を表示できる。この際、第1表示窓21に音声再生部40で再生している話者とマッチングされる話者タグ21aを識別し得るように表示できる。例えば、制御部60は、マッチングされる話者タグ21aの色を変更させたり、形態を変形させるなど、修正者が識別し得るように表示できる。また、制御部60は、第2表示窓22にリアルタイム音声認識されるテキストに該当する話者情報の話者タグ21aを識別し得るように表示できる。すなわちリアルタイム音声認識されるテキストを第2表示窓22に提供すると同時に、音声再生部40に該当音声セッションの音声を再生し、第1表示窓21上でマッチングされる話者タグ21aを識別し得るように表示できる。なお、制御部60は、音声認識部から変換されたテキスト内に含まれているマイク識別情報を修正者から入力部10を介してマッチングされる話者情報に修正して第2表示窓22に表示できる。このように、制御部60は、映像が遠く設置される場合、口付きだけでは話者を区分しにくい問題点を解消できる。
修正モードは、修正者から入力部10を介して修正のための情報が入力されて、音声認識されたテキストを修正するようにできる。すなわち制御部60は、リアルタイム入力モード状態で修正者から入力部10により修正のためのカーソル移動を入力され、カーソル移動後、修正のための情報を入力されて、音声認識されたテキストを修正するようにすることができる。この場合、制御部60は、修正者が、修正しているテキストにマッチングされる話者を認知するようにするために、修正されるテキストの話者情報とマッチングされる話者タグ21aを識別するように強調できる。この際、制御部60は、音声認識されたテキストの修正のための情報を入力されると、テキストの表示を一時停止し、修正を完了した後、既定の時間だけ以前に戻ってテキスト表示を再開させることができる。
話者別プレイモードは、修正者から入力部10を介して各話者タグ21aに対して選択信号を入力され、選択された話者タグ21aとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力できる。この際、制御部60は、第1表示窓21に選択された話者に対する映像を出力でき、第2表示窓22に選択された話者に対するテキストを出力し、音声再生部40に選択された話者に対する音声を出力するように制御できる。
また、制御部60は、各マイク識別情報に該当する話者の特徴情報を入力部10を介して入力されて、音声認識部にあらかじめ伝達できる。ここで、特徴情報は、方言、外来語、感動詞または嘆詞を含むことができる。ここで、嘆詞は、「これ、それ、あれ、いざ、いざや、どの、さあ」のような話者の固有習慣になり得る。このような特徴情報は、音声認識部で音声を認識してテキストに変換するに際して、ヒントとして適用され得る。制御部60は、表示部20を介して修正者に保存部30に保存された特徴情報DBを提供できる。例えば、制御部60は、修正者が特徴情報DBで関西地方の方言を選択した場合、関西地方の方言を標準語に変換するための情報を共に音声認識部に伝達できる。なお、本発明の実施形態では、制御部60が特徴情報を音声認識部に伝達して音声認識部で標準語変換が行われるように構成されたが、これに限定されず、制御部60が音声認識部から伝達されたテキストを直接修正するように構成され得る。
また、制御部60は、音声認識部から伝達されたテキストに対して語尾の有無を判断して、文章記号を表示できる。例えば、制御部60は、「〜です、〜ます」、「か?」のように文章の語尾に使用する文字の前に他の文字が存在すると、当該文字にマッチングされる文章記号をつけたり、音声セッションが終了した場合、該当する文章記号を表示できる。
なお、本明細書と図面に開示された実施形態は、理解を助けるために特定例を提示したものに過ぎず、本発明の範囲を限定しようとするものではない。ここに開示された実施形態以外にも、本発明の技術的思想に基づく他の変形例が実施可能であることは、本発明の属する技術分野における通常の知識を有する者には自明である。
1 マイク
10 入力部
20 表示部
21 第1表示窓
22 第2表示窓
23 第3表示窓
24 第4表示窓
25 第5表示窓
26 第6表示窓
30 保存部
40 音声再生部
50 通信部
60 制御部
100 音声信号検出部
200 音声認識部
300 テキスト修正部
400 音声合成部
500 検収部
600 多重話者音声認識修正システム

Claims (4)

  1. 複数の話者の各々が具備する複数のマイクロからそれぞれ音声信号が入力されると、前記音声信号が入力される時点から入力が中止される時点までのそれぞれの音声セッションを検出する音声信号検出部と;
    前記音声信号検出部から時間情報およびマイク識別情報を含むそれぞれの音声セッションを伝達されて、それぞれのテキストに変換する音声認識部と;
    前記音声信号検出部から前記音声セッションを伝達されて、前記音声信号が入力される時点の順に合成する音声合成部と;
    前記音声認識部から音声認識されたそれぞれのテキストを伝達され、前記マイク識別情報を変更するための話者情報を入力され、前記音声信号が入力される時点の順に前記話者情報と音声認識されたテキストを羅列して表示し、前記複数の話者を撮影した映像を出力し、前記映像に各々の話者を識別し得る話者タグを表示し、前記音声合成部から合成された音声を前記音声認識されたテキストと共に出力し、音声認識されたテキストの修正のための情報を入力されるテキスト修正部と;を含み、
    前記テキスト修正部は、前記音声認識されたテキストをリアルタイム表示しつつ、表示されるテキストの話者情報とマッチングされる話者タグを識別するように強調するリアルタイム入力モードと、前記リアルタイム入力モードで音声認識されたテキストの修正のための情報が入力されると、修正されるテキストの話者情報とマッチングされる話者タグを識別するように強調する修正モードと、各話者タグに対して選択信号が入力されると、選択された話者タグとマッチングされる話者に対する音声セッションを時間帯別に音声認識したテキストまたは音声を出力する話者別プレイモードとを含み、
    前記テキスト修正部は、前記音声認識されたテキストの修正のための情報を入力されると、テキストの表示を一時停止し、修正を完了した後、既定の時間だけ以前に戻ってテキスト表示を再開し、
    前記テキスト修正部は、各マイク識別情報に該当する方言、外来語、感動詞または嘆詞を含む話者の特徴情報を前記音声認識部にあらかじめ伝達し、
    前記音声認識部は、前記テキスト修正部から伝達された前記特徴情報を反映して、前記方言を標準語に変換したり、外来語を固有語に変換したり、話者の固有習慣である感動詞または嘆詞を削除して前記テキスト修正部に伝達することを特徴とする多重話者音声認識修正システム。
  2. 前記テキスト修正部は、前記音声認識部から伝達されたテキストに対して語尾の有無を判断して文章記号を表示することを特徴とする請求項1に記載の多重話者音声認識修正システム。
  3. 前記複数の話者の各々に音声認識部から音声認識された結果と前記テキスト修正部から修正された結果を表示する検収部;
    をさらに含むことを特徴とする請求項1に記載の多重話者音声認識修正システム。
  4. 前記検収部は、修正のための情報を入力されたり、検収完了信号を入力されて、前記テキスト修正部に伝達することを特徴とする請求項3に記載の多重話者音声認識修正システム。
JP2017225548A 2016-12-12 2017-11-24 多重話者音声認識修正システム Expired - Fee Related JP6463825B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20160168758 2016-12-12
KR1020160176567A KR101818980B1 (ko) 2016-12-12 2016-12-22 다중 화자 음성 인식 수정 시스템
KR10-2016-0176567 2016-12-22

Publications (2)

Publication Number Publication Date
JP2018106148A true JP2018106148A (ja) 2018-07-05
JP6463825B2 JP6463825B2 (ja) 2019-02-06

Family

ID=61066712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017225548A Expired - Fee Related JP6463825B2 (ja) 2016-12-12 2017-11-24 多重話者音声認識修正システム

Country Status (4)

Country Link
US (1) US10276164B2 (ja)
JP (1) JP6463825B2 (ja)
KR (1) KR101818980B1 (ja)
CN (1) CN108231065A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020184007A (ja) * 2019-05-07 2020-11-12 株式会社チェンジ 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
JP2020201909A (ja) * 2019-06-13 2020-12-17 株式会社リコー 表示端末、共用システム、表示制御方法およびプログラム
US11651779B2 (en) 2020-05-08 2023-05-16 Sharp Kabushiki Kaisha Voice processing system, voice processing method, and storage medium storing voice processing program

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10319364B2 (en) 2017-05-18 2019-06-11 Telepathy Labs, Inc. Artificial intelligence-based text-to-speech system and method
US10923121B2 (en) * 2017-08-11 2021-02-16 SlackTechnologies, Inc. Method, apparatus, and computer program product for searchable real-time transcribed audio and visual content within a group-based communication system
US10567515B1 (en) * 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
KR102460491B1 (ko) * 2017-12-06 2022-10-31 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR102076565B1 (ko) * 2018-10-11 2020-02-12 주식회사 한글과컴퓨터 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
CN109600299B (zh) * 2018-11-19 2021-06-25 维沃移动通信有限公司 一种消息发送方法及终端
EP3940695A4 (en) * 2019-03-15 2022-03-30 Fujitsu Limited EDITING SUPPORT PROGRAM, EDITING SUPPORT METHOD AND EDITING SUPPORT DEVICE
KR102061291B1 (ko) * 2019-04-25 2019-12-31 이봉규 5g 통신 기반 스마트 회의 시스템 및 로보틱 처리 자동화를 통한 회의 지원 방법
KR102147811B1 (ko) 2020-01-14 2020-08-25 김승모 회의장 발언자 음성인식 및 문자정보변환시스템
CN111161711B (zh) * 2020-04-01 2020-07-03 支付宝(杭州)信息技术有限公司 对流式语音识别文本进行断句的方法及装置
EP3951775A4 (en) * 2020-06-16 2022-08-10 Minds Lab Inc. PROCEDURE FOR GENERATION OF SPEAKER MARKED TEXT
CN112164396A (zh) * 2020-09-28 2021-01-01 北京百度网讯科技有限公司 语音控制方法、装置、电子设备及存储介质
CN112201275B (zh) * 2020-10-09 2024-05-07 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
US11830496B2 (en) * 2020-12-01 2023-11-28 Microsoft Technology Licensing, Llc Generating and providing inclusivity data insights for evaluating participants in a communication
CN113413613B (zh) * 2021-06-17 2024-06-25 网易(杭州)网络有限公司 一种游戏内语音聊天的优化方法、装置、电子设备及介质
US11763242B2 (en) * 2021-12-09 2023-09-19 Z21 Labs, Inc. Automatic evaluation of recorded interactions
US20230351123A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Providing multistream machine translation during virtual conferences
CN115376490A (zh) * 2022-08-19 2022-11-22 北京字跳网络技术有限公司 一种语音识别方法、装置及电子设备
CN115662437B (zh) * 2022-12-28 2023-04-18 广东保伦电子股份有限公司 一种多话筒同时使用场景下的语音转写方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP2005164656A (ja) * 2003-11-28 2005-06-23 Mitsubishi Electric Corp 音声認識装置及び音声認識プログラム
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
JP2009288567A (ja) * 2008-05-29 2009-12-10 Ricoh Co Ltd 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP2013073323A (ja) * 2011-09-27 2013-04-22 Nec Commun Syst Ltd 会議データの統合管理方法および装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5913196A (en) * 1997-11-17 1999-06-15 Talmor; Rita System and method for establishing identity of a speaker
US6064963A (en) * 1997-12-17 2000-05-16 Opus Telecom, L.L.C. Automatic key word or phrase speech recognition for the corrections industry
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7693717B2 (en) * 2006-04-12 2010-04-06 Custom Speech Usa, Inc. Session file modification with annotation using speech recognition or text to speech
KR101328928B1 (ko) 2006-10-26 2013-11-14 엘지전자 주식회사 이동통신 단말기의 회의록 작성 방법
JP5030868B2 (ja) * 2008-06-10 2012-09-19 株式会社日立製作所 会議音声録音システム
US8566088B2 (en) 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
JP5533854B2 (ja) * 2009-03-31 2014-06-25 日本電気株式会社 音声認識処理システム、および音声認識処理方法
US8209174B2 (en) * 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US9043474B2 (en) * 2010-01-20 2015-05-26 Microsoft Technology Licensing, Llc Communication sessions among devices and interfaces with mixed capabilities
US8849666B2 (en) * 2012-02-23 2014-09-30 International Business Machines Corporation Conference call service with speech processing for heavily accented speakers
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech
KR101939253B1 (ko) * 2012-05-21 2019-01-16 엘지전자 주식회사 음성 녹음 중에 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
KR20140077514A (ko) 2012-12-14 2014-06-24 박종봉 회의록 관리장치
JP6327848B2 (ja) * 2013-12-20 2018-05-23 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
KR20150089168A (ko) 2014-01-27 2015-08-05 최재용 인공지능을 활용한 언어분석 방법 및 시스템
JP6242773B2 (ja) * 2014-09-16 2017-12-06 株式会社東芝 会議情報蓄積装置、方法およびプログラム
KR20160035884A (ko) 2014-09-24 2016-04-01 삼성전자주식회사 회의 진행 장치 및 회의 진행 방법
CN105632498A (zh) * 2014-10-31 2016-06-01 株式会社东芝 生成会议记录的方法、装置和系统
CN105810207A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
KR20160108874A (ko) 2015-03-09 2016-09-21 주식회사셀바스에이아이 대화록 자동 생성 방법 및 장치
CN105429851B (zh) * 2015-11-10 2018-08-21 河海大学 一种基于即时通信的多人协同录音系统及识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000352995A (ja) * 1999-06-14 2000-12-19 Canon Inc 会議音声処理方法および記録装置、情報記憶媒体
JP2005164656A (ja) * 2003-11-28 2005-06-23 Mitsubishi Electric Corp 音声認識装置及び音声認識プログラム
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
JP2009288567A (ja) * 2008-05-29 2009-12-10 Ricoh Co Ltd 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP2013073323A (ja) * 2011-09-27 2013-04-22 Nec Commun Syst Ltd 会議データの統合管理方法および装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
呉浩東他: "統合的言い換え表現の抽出", 情報処理学会研究報告, vol. 2005, no. 73, JPN6018047755, 22 July 2005 (2005-07-22), pages 43 - 46, ISSN: 0003932339 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020184007A (ja) * 2019-05-07 2020-11-12 株式会社チェンジ 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
JP2020201909A (ja) * 2019-06-13 2020-12-17 株式会社リコー 表示端末、共用システム、表示制御方法およびプログラム
JP7314635B2 (ja) 2019-06-13 2023-07-26 株式会社リコー 表示端末、共用システム、表示制御方法およびプログラム
US11651779B2 (en) 2020-05-08 2023-05-16 Sharp Kabushiki Kaisha Voice processing system, voice processing method, and storage medium storing voice processing program

Also Published As

Publication number Publication date
CN108231065A (zh) 2018-06-29
JP6463825B2 (ja) 2019-02-06
KR101818980B1 (ko) 2018-01-16
US20180182396A1 (en) 2018-06-28
US10276164B2 (en) 2019-04-30

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
EP3469592B1 (en) Emotional text-to-speech learning system
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US11687526B1 (en) Identifying user content
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
CN110047481A (zh) 用于语音识别的方法和装置
JP2021529337A (ja) 音声認識技術を利用した多者間対話記録/出力方法及びこのため装置
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JP2011504624A (ja) 自動同時通訳システム
KR20190032557A (ko) 음성 기반 통신
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JPH10326176A (ja) 音声対話制御方法
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
KR102472921B1 (ko) 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
Harada et al. VoiceLabel: using speech to label mobile sensor data
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP6696878B2 (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
KR102471678B1 (ko) 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190104

R150 Certificate of patent or registration of utility model

Ref document number: 6463825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees