JP2019535044A - ハイブリッド音声認識複合性能自動評価システム - Google Patents

ハイブリッド音声認識複合性能自動評価システム Download PDF

Info

Publication number
JP2019535044A
JP2019535044A JP2019541061A JP2019541061A JP2019535044A JP 2019535044 A JP2019535044 A JP 2019535044A JP 2019541061 A JP2019541061 A JP 2019541061A JP 2019541061 A JP2019541061 A JP 2019541061A JP 2019535044 A JP2019535044 A JP 2019535044A
Authority
JP
Japan
Prior art keywords
unit
result
speech recognition
recognition
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019541061A
Other languages
English (en)
Other versions
JP6826205B2 (ja
Inventor
スン ピョ リュ、
スン ピョ リュ、
ミン キュ ソン、
ミン キュ ソン、
Original Assignee
メディアゼン インコーポレイテッド
メディアゼン インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by メディアゼン インコーポレイテッド, メディアゼン インコーポレイテッド filed Critical メディアゼン インコーポレイテッド
Publication of JP2019535044A publication Critical patent/JP2019535044A/ja
Application granted granted Critical
Publication of JP6826205B2 publication Critical patent/JP6826205B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

本発明はハイブリッド音声認識複合性能自動評価システムに係り、より詳しくはハイブリッド端末機とクラウドサーバーを同時に使用して、ハイブリッド端末機を介しての音声認識と言語理解処理結果及びクラウドサーバーを介してのサーバー音声認識と言語理解処理結果を同時に自動的に評価することができるシステムを提供することにより、正確で早い性能と機能検証結果を出力することができるハイブリッド音声認識複合性能自動評価システムに関する。

Description

本発明はハイブリッド音声認識複合性能自動評価システムに係り、より詳しくはハイブリッド端末機とクラウドサーバーを同時に使用して、ハイブリッド端末機を介しての音声認識と言語理解処理結果及びクラウドサーバーを介してのサーバー音声認識と言語理解処理結果を同時に自動的に評価することができるシステムを提供することにより、正確で早い性能と機能検証結果を出力することができるハイブリッド音声認識複合性能自動評価システムに関する。
音声認識技術(Speech Recognition)はマイクロホンを介して入力された使用者の音声をコンピュータが分析し、特徴を抽出し、予め入力された単語又は文章に近接した結果を命令語として認識し、認識された命令語に相応する動作を実行するようにする技術である。
既存の音声認識システムは、車両、モバイルなどの端末機の内部に音声認識エンジンが組み込まれる端末音声認識方式と、スマートフォンインターネット音声検索及び各種の情報処理のためのクラウドに基づくサーバー音声認識方式がそれぞれサービス用途に合わせて弁別的に使われて来た。
そして、認識文法に基づく端末音声認識システムの高い認識率という側面での利点と、文章単位の認識というサーバー音声認識の利点を一緒に活用することができるハイブリッド音声認識(Hybrid Speech Recognition)技術が市場に適用されている。
前述したハイブリッド音声認識は、使用者の一発話に対して端末音声認識エンジンとサーバー音声認識エンジンを同時に駆動させて2個以上の複数の結果値を受信することができ、前記2個の値のうちより良い結果値を命令駆動に使うことができる調停アルゴリズム(Arbitration Algorithm)が核心的役割を担当する。
端末音声認識の結果は、普通の場合、単語(Word)として、サーバー音声認識の結果は、普通の場合、文章(Sentence)として、言語理解モジュールの結果は、普通の場合、意図(Intention)及び一つ以上の複数の対象枠(Slot)として出力されるなど、互いに異なる類型の結果が状況に応じて可変的に導出されるので、既存の音声認識評価システムではハイブリッド音声認識に対する評価を担当することができなかった。
すなわち、既存音声認識自動テストに係る発明は、たいてい実車環境を考慮したものではない、PCに音声認識システムを備え、認識対象語彙を自動で入力して結果を集計するバッチ(Batch)方式と、テスト環境の造成時にノイズと音声の比率を自動で調整する音量調整装置などの技術を中心になされていた。
しかし、最近、音声認識は、認識結果の規格が互いに異なる端末音声認識とクラウドに基づくサーバー音声認識が同時に駆動されるハイブリッド方式に対する統合性能検証が必要であるので、互いに異なる規格の結果を統合して分析することができるアルゴリズムと運営方案が必要である。
特に、既存の音声認識自動化評価システムは、音声認識率を測定するための音声DB自動出力装置又はノイズ環境を調整することができる調節装置などを中心に発展して来た。
しかし、最近、音声認識は、認識結果の規格の相異なる端末音声認識とクラウドに基づくサーバー音声認識が同時に駆動されるハイブリッド方式に対する統合性能検証が必要であるので、互いに異なる規格の結果を統合して分析することができるアルゴリズムと運営方案が必要である。
例えば、車両用音声認識システムの場合、実車の高速走行環境で多国語のネーティブスピーカーを直接車両に乗らせ、決まった命令語を発話するように指導した後、検収者が同乗して認識結果を手動でチェックする方式が一般的である。
しかし、このような実車テスト方式は、数百人単位のネーティブスピーカー渉外の問題、テスト場所までの引率及び管理の問題、高速走行の状況による安全問題、認識結果の手記による効率性低下の問題、莫大な結果データの精製及び分析時間の過多所要の問題、繰り返しテスト不可の問題などの多様な現実的問題に直面して、現実的に有意な統計的結果の算出に十分な程度のテスト実施が難しい問題が発生するため、これに対する解決技術が必要になった。
したがって、本発明は前記のような従来技術の問題点に鑑みて提案されたもので、本発明の第1目的は、ハイブリッド端末機の音声認識結果自動検証及び言語理解結果自動検証とクラウドサーバーの音声認識結果自動検証、言語理解結果自動検証及びシステム内部の調停結果検証などを個別的又は統合的に分析し、分析結果を出力することができるようにすることにある。
本発明の第2目的は、ハイブリッド端末機及びクラウドサーバーでの多様な音声認識結果に対して一度に処理可能な機能を提供することにより、従来にそれぞれ数回にかけて個別的に進めるしかなかった単純反復的な自動化を複合処理の可能な高効率システムに性能アップグレードすることができるようにすることにある。
本発明の第3目的は、ハイブリッド音声認識プラットホームの内部で行われる認識の過程をログを介して分析し、自動的に音声認識の性能を評価するハイブリッド音声認識評価自動化システムを提供するとともに画面出力の整合性、音声案内出力の整合性、テスト環境情報の記録などの複合機能を付け加えることによって性能評価の信頼度を大きく高めることができるようにすることにある。
本発明の第4目的は、音声認識評価環境記録部によって、実際の車両が走行する環境で路面、天気、周辺状況などを確認することができるカメラ映像部とCAN通信情報から速度、エンジン状態、空調状態などが分かるCAN通信分析部を連携し、各種のテスト環境情報を結果出力部に送って複合性能結果にマッピングすることにより、車両用音声認識性能評価の信頼性を高め、環境情報に対する体系的な管理ができるようにすることにある。
本発明が解決しようとする課題を達成するために、ハイブリッド音声認識複合性能自動評価システムは、
自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出するための端末言語理解部(140)、
前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するための端末音声認識エンジン部(130)、
前記端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値、及びクラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値を比較していずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部に提供するための結果調停部(150)、
前記結果調停部によって提供された駆動命令値をログ部(400)に記憶させるためのハイブリッド音声認識ミドルウェア部(120)、
前記駆動命令値を記憶しているログ部(400)、及び
音声認識評価自動化装置(300)と連結され、前記ログ部に記憶されたログ情報を提供するためのインターフェース部(110)を含んでなるハイブリッド端末機(100)と、
前記ハイブリッド端末機(100)から伝送された音声を獲得して使用者の命令対象値を抽出するためのサーバー言語理解部(220)、及び
使用者の命令対象値に基づいて音声認識結果値を抽出するためのサーバー音声認識エンジン部(210)を含んでなるクラウドサーバー(200)と、
音声ボタンを押す場合、音声認識駆動命令を自動化制御部に提供するためのウェイクアップ自動制御部(370)、
前記音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供するための自動化制御部(310)、
前記ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了するためのログ分析部(320)、
前記ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出するための統合結果分析部(330)、
端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析するための整合性結果分析部(340)、
メモリに記憶されたカメラ映像とCAN通信情報を参照して音声認識が行われるとき、周辺環境情報を記録するための音声認識評価環境記録部(350)、及び
前記統合結果分析部によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力するための結果出力部(360)を含んでなる音声認識評価自動化装置(300)とを含む。
以上の構成及び作用を有する本発明によるハイブリッド音声認識複合性能自動評価システムにより、ハイブリッド端末機の音声認識結果自動検証及び言語理解結果自動検証とクラウドサーバーの音声認識結果自動検証、言語理解結果自動検証及びシステム内部の調停結果検証などを個別的又は統合的に分析し、分析結果を出力することができる効果を発揮するようになる。
また、ハイブリッド端末機及びクラウドサーバーでの多様な音声認識結果に対して一度に処理可能な機能を提供することにより、従来にそれぞれ数回にかけて個別的に進めるしかなかった単純反復的な自動化を複合処理の可能な高効率システムに性能アップグレードすることができる効果を発揮するようになる。
また、本発明のハイブリッド音声認識プラットホームの内部で行われる認識の過程をログを介して分析し、自動的に音声認識の性能を評価するハイブリッド音声認識評価自動化システムを提供するとともに画面出力の整合性、音声案内出力の整合性、テスト環境情報の記録などの複合機能を付け加えることによって性能評価の信頼度を大きく高めることができる効果を発揮するようになる。
すなわち、画面出力検証と音声出力検証結果を結果分析部に提供し、統合結果分析部で処理された評価結果にマッピングすることにより、認識性能と動作性能を複合的に評価することができるようになる。
例えば、普通認識性能と動作性能は別に測定されるので2倍の時間がかかるが、本発明によって一度に2種の評価を自動的に実施することができるようになる。
また、音声認識評価環境記録部によって、実際の車両が走行する環境で路面、天気、周辺状況などを確認することができるカメラ映像部とCAN通信情報から速度、エンジン状態、空調状態などが分かるCAN通信分析部を連携し、各種のテスト環境情報を結果出力部に送って複合性能結果にマッピングすることにより、車両用音声認識性能評価の信頼性を高め、環境情報に対する体系的な管理が可能な効果を発揮するようになる。
本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムを概略的に示した全体構成図である。 本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムのハイブリッド端末機及びクラウドサーバーのブロック図である。 本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの音声認識評価自動化装置のブロック図である。 本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの自動化制御部のブロック図である。 本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの統合結果分析部のブロック図である。
以下の内容は単に本発明の原理を例示する。したがって、当業者は、たとえこの明細書に明確に説明乃至図示されていないが、本発明の原理を具現し、本発明の概念と範囲に含まれた多様な装置を発明することができるものである。
また、本明細書に列挙した全ての条件付の用語及び実施例は原則的に本発明の概念が理解されるようにするための目的であるだけ、このように特別に列挙した実施例及び状態に制限されないものと理解されなければならない。
本発明の課題を解決するための手段は下記のようである。
すなわち、本発明のハイブリッド音声認識複合性能自動評価システムは、
自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出するための端末言語理解部140、
前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するための端末音声認識エンジン部130、
前記端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値、及びクラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値を比較していずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部に提供するための結果調停部150、
前記結果調停部によって提供された駆動命令値をログ部400に記憶させるためのハイブリッド音声認識ミドルウェア部120、
前記駆動命令値を記憶しているログ部400、及び
音声認識評価自動化装置300と連結され、前記ログ部に記憶されたログ情報を提供するためのインターフェース部110を含んでなるハイブリッド端末機100と、
前記ハイブリッド端末機から伝送された音声を獲得して使用者の命令対象値を抽出するためのサーバー言語理解部220、及び
使用者の命令対象値に基づいて音声認識結果値を抽出するためのサーバー音声認識エンジン部210を含んでなるクラウドサーバー200と、
音声ボタンを押す場合、音声認識駆動命令を自動化制御部に提供するためのウェイクアップ自動制御部370、
前記音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供するための自動化制御部310、
前記ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了するためのログ分析部320、
前記ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出するための統合結果分析部330、
端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析するための整合性結果分析部340、
メモリに記憶されたカメラ映像とCAN通信情報を参照して音声認識が行われるとき、周辺環境情報を記録するための音声認識評価環境記録部350、及び
前記統合結果分析部によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力するための結果出力部360を含んでなる音声認識評価自動化装置300と、を含む。
以下では、本発明によるハイブリッド音声認識複合性能自動評価システムの実施例を詳細に説明する。
図1は本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムを概略的に示した全体構成図である。
図1に示すように、大別して、ハイブリッド端末機100、クラウドサーバー200、及び音声認識評価自動化装置300を含んでなる。
前記のように、本発明のシステムは、ハイブリッド端末機とクラウドサーバーを同時に使用して、音声認識を処理し、ログ情報を音声認識評価自動化装置から獲得してログを分析し、音声認識評価を自動的に行うものである。
すなわち、前記ハイブリッド端末機は、端末音声認識、サーバー音声認識、端末言語理解、サーバー言語理解の結果及び調停(Arbitration)結果を算出する機能をする。
前記ハイブリッド端末機、クラウドサーバー、音声認識評価自動化装置の具体的な構成手段を下記の図面に基づいて具体的に説明する。
図2は本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムのハイブリッド端末機及びクラウドサーバーのブロック図である。
図2に示すように、前記ハイブリッド端末機100は、インターフェース部110、ハイブリッド音声認識ミドルウェア部120、端末音声認識エンジン部130、端末言語理解部140、結果調停部150及びログ部400を含んでなる。
前記インターフェース部110は音声認識評価自動化装置300と連結され、前記ログ部に記憶されたログ情報を提供する。
前記連結はネットワーク網を介してなされる。
前記端末言語理解部140は自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出する。
前述した端末言語理解(Embedded Natural Language Understanding)技術は、電子器機の内部に規則に基づく(Rule Based)アルゴリズム又は統計モデル(Statistic Model)を用いる自然語処理モジュールを内蔵し、音声認識結果テキストから使用者の最終目標である命令意図(Intention、Goal)と具体的な命令対象(Named Entity)を自動で抽出する方法を意味し、前記端末言語理解部を介して自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出する。
前記使用者の命令対象値を抽出する技術は一般的な技術であるので、詳細な説明は省略する。
また、前記端末音声認識エンジン部130は、前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出する機能をする。
前述した端末音声認識(Embedded Speech Recognition)技術は電子器機の内部に音声認識DB及びモデル、パターンマッチングアルゴリズムなどを用いる技術であり、前述した端末音声認識エンジン部を介して予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するものである。
すなわち、普通認識機が理解することができる認識文法(Grammar)に基づいて音声認識が行われ、認識対象リストが決まっており、その対象リストのみ認識結果として出力されることができる構造を有する。
一方、クラウドサーバー200は、図2に示すように、サーバー言語理解部220とサーバー音声認識エンジン部210を含んでなる。
前記サーバー言語理解部220はハイブリッド端末機から伝送された音声を獲得して使用者の命令対象値を抽出する機能をする。サーバー基盤言語理解技術(Server Based Natural Language Understanding)はサーバー音声認識結果として出力された文章テキストから発話者の意図及び対象を把握し、最終的な音声認識実行目的を自動で抽出する。
また、前記サーバー音声認識エンジン部210は使用者の命令対象値に基づいて音声認識結果値を抽出する。サーバーに基づく音声認識技術(Server Based Speech Recognition)は電子器機の内部に含まれたマイク及びその他の録音装備に入力された音声をクラウドに基づくサーバー音声認識エンジン部に伝送し、これを認識した認識結果をハイブリッド端末機に提供する。
従来の音声認識システムは、車両、モバイルなどの端末機の内部に音声認識エンジンが組み込まれる端末音声認識方式と、スマートフォンインターネット音声検索及び各種の情報処理のためのクラウドに基づくサーバー音声認識方式がそれぞれサービス用途に合わせて弁別的に使われて来た。
しかし、認識文法に基づく端末音声認識システムの高い認識率という側面での利点と、文章単位の認識というサーバー音声認識の利点を一緒に活用することができるハイブリッド音声認識(Hybrid Speech Recognition)技術が市場に適用されている。
本発明で説明しているハイブリッド音声認識は、使用者の一つの発話に対して端末音声認識エンジンとサーバー音声認識エンジンを同時に駆動させて2個以上の複数の結果値を受信することができ、その2個の値のうちより良い結果値を命令駆動に使うことができる調停アルゴリズム(Arbitration Algorithm)が核心的役割を担当する。
前述した調停アルゴリズムを用いてより良い結果値を命令駆動に使うために結果調停部150を構成する。
すなわち、前記結果調停部150は、端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値、クラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値を比較し、いずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部に提供する。
以下では、端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値を端末言語理解と、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値を端末音声認識と、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値をサーバー言語理解と、クラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値をサーバー音声認識と、結果調停部で調停された駆動命令値を調停結果という用語で定義して説明する。
ここで、前記ハイブリッド音声認識ミドルウェア部120は、前記結果調停部によって提供された駆動命令値をログ部400に記憶させる機能をする。
すなわち、ハイブリッド端末機100から最終的に出力される結果を選別する役割を担当し、前記インターフェース部110を介してログ情報400を音声認識評価自動化装置300に伝達する。
そして、ハイブリッド音声認識ミドルウェア部120は、端末音声認識エンジン部130とサーバー音声認識エンジン部210を順次又は同時実行する場合、結果調停部150まで通過する場合、端末言語理解又はサーバー言語理解まで行う場合などの多様な組合せの駆動が可能である。
ここで、ハイブリッド音声認識ミドルウェア部120を介して出力される認識結果はいずれもログ部400に記憶され、前記ログ部400に記憶されたログ情報はインターフェース部110と自動化制御部310間の通信によって伝達される。
前記ログ部400には駆動命令値が記憶されている。これはログ情報として記憶されている。
前記ログ情報には、音声認識開始時間情報、マイク開/閉情報、音声区間抽出情報のような自動化処理のための情報と、音声認識結果情報、シナリオ遷移情報、案内プロンプト出力情報のような認識結果及び案内情報が含まれている。
図3は本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの音声認識評価自動化装置のブロック図である。
図3に示すように、前記音声認識評価自動化装置300は、自動化制御部310、ログ分析部320、統合結果分析部330、整合性結果分析部340、音声認識評価環境記録部350、及び結果出力部360を含んでなる。
前記のように、音声認識評価自動化装置を用いれば、実際の車両環境でのテストを自動化することができる機能をすることができる。すなわち、車両に装着されたナビゲーション又はオーディオ端末機に内蔵された音声認識システムを変形なしに直接連結して自動化評価を行うことができる。
構成手段について以下で具体的に説明する。
前記ウェイクアップ自動制御部370(PTT&Wake Up)は、使用者が音声ボタンを押す場合、音声認識駆動命令を自動化制御部に提供する機能をする。
すなわち、音声認識の開始又は中断を判断する構成手段であって、ボタンを押して車両用音声認識を駆動させるか、決まった呼出し命令語を認識して車両用音声認識を駆動させることを制御する部分である。
例えば、車両用音声認識を自動的に評価するためには評価実行プロセスに従わなければならない。認識実行プロセスの最初と繰り返しの開始時点でウェイクアップ自動制御部370(PTT&Wake Up)が駆動される。
従来の自動テスト方式はナビゲーションなどの実際音声認識始動キーの物理的入力が必要な状態の評価環境が考慮されなかった方式であるので自動的評価の問題点を発生させるが、前記のようにウェイクアップ自動制御部を構成して物理的に自動化した始動方法を適用することによってこのような問題点を改善する。
そして、別途の作業なしに単純にシリアル通信を連結し、自動車ハンドルに付着された音声認識開始ボタン(PTT:Push to Talk Button)を音声認識タイミングに合わせて自動で制御する自動化制御部310が必ず必要である。
前記自動化制御部310は、ウェイクアップ自動制御部から音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供する。
また、前記自動化制御部は全体音声認識自動評価プロセスを実行し、このために、図4に示すように、評価シナリオ入力部311、評価シナリオ記憶部316、自動評価開始部312、音声認識開始部313、案内プロンプトスキップ部314、認識命令語DB再生部315、及びシナリオ終了判断部317を含んでなる。
前記評価シナリオ記憶部316は評価シナリオを記憶しており、前記評価シナリオ入力部311を介して評価シナリオを受ける。
ここで、前記評価シナリオ入力部によって全体評価リスト及び手順情報をアップロードすることになる。
前記自動評価開始部312は、ログ分析部によって分析された音声認識開始時点と終了時点、プロンプト出力時点の情報を用いて評価シナリオの始めから音声認識自動評価を行い、音声認識開始部を動作させて自動で音声認識を行う。
具体的に、自動評価が開始されれば、ログ分析部320によって分析された音声認識開始時点及び終了時点、プロンプト出力時点などの情報を活用して自動的に音声認識を開始又は終了する。
ここで、前記自動評価開始部312は評価シナリオの始めから音声認識自動評価を実施し、音声認識開始部313を呼び出して自動で音声認識が行われるようにする。
音声認識が始まるためにはPTTボタン又はWake Up Commandを実行しなければならない。この時点で、自動にウェイクアップ自動制御部を呼び出して音声認識を物理的に開始することになる。
音声認識開始時点はログ情報の分析によって確認し、一定の時間ごとに到逹するログを分析して自動化タイミングを設定する。
一方、音声認識が始まれば、案内プロンプトと命令語を言うタイミングを知らせるビープ音が発生する。この際、案内プロンプトスキップ部314によって案内プロンプトを中断して全体テスト時間を節約する方法を用いることができる。
そして、認識命令語DB再生部315によってビープ音が発生した後、録音された音声情報を出力することになる。
すなわち、ビープ音が発生した後に自動で人の代わりに録音された音声情報を出力することになる。これを認識命令語DB再生部315で行う。
その後、統合結果分析部330で認識結果を処理した後にはシナリオ終了判断部317で終了可否を判断する。評価シナリオに従って、評価項目がもっと残ったときには音声認識開始部313にルーチンされて音声認識を再開し、終了しなければならない場合には、結果出力部360によって評価を終了した後、結果を文書又は画面に出力する。
すなわち、前記シナリオ終了判断部317によって、評価シナリオに従って、評価項目が存在するかを判断し、存在しない場合に評価シナリオを終了する。
前記ログ分析部320は、ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了する機能をする。
すなわち、ログ情報には、音声認識開始時間情報、マイク開/閉情報、音声区間抽出情報のような自動化処理のための情報と、音声認識結果情報、シナリオ遷移情報、案内プロンプト出力情報のような認識結果及び案内情報が含まれている。これを分析することになる。
具体的に説明すると、前記ログ分析部によるログ分析方式の音声認識自動化制御方式は、例えば車両装着された端末機を制御するために構成される構成手段であって、既存の自動化システムが別途のプログラムの組込みを必要とすることに起因する多くの問題点を解決する手段として活用される。
また、最近、車両用音声認識は、“ナビゲーション”のように決まった命令語を発話してその結果を出力する孤立単語に基づく音声認識だけではなく、“ナビゲーションが見たいのでオンにしてみて”のように全体文章単位で発話し、その中に内包された意味を分析して話し手の意図と行動様式を予測するマシンランニングに基づく言語処理技術が活用されているので、端末言語理解部140及びサーバー言語理解部220の動作結果による分期シナリオを追跡して認識率を算出する必要がある。
したがって、統合結果分析部を構成することで、端末音声認識結果自動検証、端末言語理解結果自動検証、サーバー音声認識結果自動検証、サーバー言語理解結果自動検証、調停結果検証などを個別的に又は統合的に分析し、結果出力部によって結果を出力することができる。
そして、統合結果分析部は、端末音声認識結果、端末言語理解結果、サーバー音声認識結果、サーバー言語理解結果を統合的に分析することができるので、端末音声認識又はサーバー音声認識を無作為に実行しても自動的に結果処理及び分析を行うことができる。
従来の評価システムはAgentプログラムをナビゲーション端末機に組み込む方式を主に用いるが、これはシステム負荷を生じさせて誤作動を引き起こすことができるから、前記のようにログ分析部によるログ分析を用いて前述した問題点を解決する。
次に、統合結果分析部330の構成手段及び動作を図5に基づいて具体的に説明する。
図5に示す統合結果分析部330は、ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出する機能をする。
すなわち、端末音声認識結果、端末言語理解結果、サーバー音声認識結果、サーバー言語理解結果、調停結果などを分析して評価結果を算出する。これは、最終的にただ一つの動作のみを運転者に提供する。
前記のような機能をするために、前記統合結果分析部330は、認識結果フォーマット分別部331、認識結果フォーマット分類記録部332、認識結果類型判断部333、及び認識結果決定部334を含んでなる。
前記認識結果フォーマット分別部331は、ハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値の相異なるフォーマットを分析して結果フォーマットの類型を判読し、認識結果フォーマット分類記録部332に判読された結果フォーマットの類型を記録する。
そして、前記認識結果類型判断部333は前記記録された結果フォーマットの類型を参照してハイブリッド端末機又はクラウドサーバーのうちどこで実行したかを判断する。具体的に、分析された結果が、端末認識、端末言語理解、サーバー認識、サーバー言語理解、調停結果の中でどの結果であるかを判断する。
ここで、認識結果決定部334は、前記判断された結果値を参照して最終認識結果値として記録する。
その後、最終的に、認識結果値は結果フォーマットによって結果出力部360に提供されて画面UIに表示される。
一方、本発明の音声認識評価自動化装置300は、図3に示すように、整合性結果分析部340をさらに含んでなることができる。
前記整合性結果分析部340は、端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析する。
すなわち、最終結果として行われる画面表示の適切性と音声案内コメントの有効性などを複合的に評価して、認識率とともに正常な動作の確認もできるように画面出力の整合性と音声出力の整合性を分析する。
このために、前記整合性結果分析部340は、音声認識が行われた後、画面GUIの変更をカメラによって獲得して正解画面と比較して相違点を区分する画面出力整合性検証モジュール、及び音声認識結果、音声案内コメント出力音を正解音声と比較して整合性を判断する音声出力整合性検証モジュールを含んでなることができる。
ここで、画面出力整合性検証モジュールは、カメラに動作信号を送出し、撮影された映像情報を獲得し、予め記憶された正解画面と比較して相違点を区分することになる。
ここで、音声出力整合性検証モジュールは、例えば復命復唱案内音又は特定のシナリオで正確に出力されなければならない音声案内コメント出力音を正解音声メントと比較することによって整合性を判断する。
前記の画面出力検証と音声出力検証の結果を統合結果分析部330に提供して統合結果分析部で分析された評価結果にマッピングすることにより、認識性能と動作性能を複合的に評価することができる。
一般に、普通認識性能と動作性能は別に測定されるから2倍の時間がかかるが、前述したように、本発明によって一度に2種の評価を自動的に実行することができる。
また、前記分析された整合性結果情報を結果出力部に提供する。
一方、本発明の音声認識評価自動化装置300は、図3に示すように、音声認識評価環境記録部350をさらに含んでなることができる。
前記音声認識評価環境記録部350は、メモリに記憶されたカメラ映像とCAN通信情報を参照して、音声認識が行われるときの周辺環境情報を記録する。
自動車は、例えばカメラ映像部を構成しており、該当自動車が実際に走行する環境で路面、天気、周辺状況などを映像で撮影することになり、該当撮影情報が記憶されたメモリからカメラ映像を獲得することになる。
また、CAN通信分析部によって速度、エンジン状態、空調状態などを分析することになり、該当の分析されたCAN通信情報を獲得することになる。
ここで、最終的に、カメラ映像とCAN通信情報を参照して音声認識が行われるときの周辺環境情報を一緒に記録することになる。
その後、最終的に、前記結果出力部360は、統合結果分析部によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力することになる。
したがって、音声認識システムの複合性能(Multiple Performance)に対する検証も一緒に行うことができる利点を提供する。
一般的な音声認識システムは、認識率だけではなく、結果出力及び音声出力まで全て確認した後にだけ量産性を確認することができる。
したがって、別に行われるテストによって総所要時間が長くなる問題点を改善することができるので、既存にそれぞれ実行されたテストに比べて、総所要時間を大幅節減することができる。
そして、手動で行っていた画面確認及び出力音声確認を認識率評価時に同時に進めることができることになるので、既存に認識率のみ評価するシステムに比べて高い活用性を確保することができる。
また、音声認識自動化評価結果に基づいて音声認識性能を改善するためには音声認識性能低下の原因を分析しなければならない。この際、詳細な音声認識実行状況情報が非常に重要な手がかりとなる。
したがって、本発明では、車両速度、空調の大きさ、窓開閉、路面、天気などの多様な条件を確認することができるカメラ映像とCAN情報を取得して音声認識実行情報に追加的に記録する。
前記のような音声認識実行時の周辺環境情報は音声認識性能の改善及びチューニングの進行のために非常に重要な情報として活用され、どのくらい正確なテスト状態情報を提供することができるかによって評価装置の活用度が左右されることができるから、前記のように音声認識評価環境記録部を構成し、これを結果出力部を介して統合的に出力することになる。
本発明のシステムにより、多様な音声認識結果に対して一度に処理できるようになるので、既存の性能評価システムではそれぞれ数回にかけて個別的に進めるしかなかった単純反復的な自動化を複合処理の可能な高効率システムに進化させることができる。
また、本発明で説明している複合機能とは、ハイブリッド音声認識プラットホームの内部で行われる認識の過程をログによって分析し、自動的に音声認識の性能を評価するにあたり、画面出力の整合性と音声案内出力の整合性、テスト環境情報の記録などを付け加えることを意味し、これによって性能評価の信頼度を大きく高めることができ、環境情報に対する体系的な管理が可能な利点を提供することができる。
要約すると、ハイブリッド音声認識システムの相異なる結果に対して統合的に分析する統合結果分析部330と音声認識環境及び動作性能を分析する整合性結果分析部340によって、従来技術で解決することができなかった異種結果分析自動化と多重検証結果出力の問題を解決することができる。
また、以上では本発明の好適な実施例について図示しながら説明したが、本発明は上述した特定の実施例に限定されなく、請求範囲で請求する本発明の要旨を逸脱することなしに本発明が属する技術分野で通常の知識を有する者によって多様な変形実施が可能であるのはいうまでもなく、このような変形実施は本発明の技術的思想又は見込みから個別的に理解されてはいけないであろう。
本発明によるハイブリッド音声認識複合性能自動評価システムにより、ハイブリッド端末機の音声認識結果自動検証及び言語理解結果自動検証とクラウドサーバーの音声認識結果自動検証、言語理解結果自動検証及びシステム内部の調停結果検証などを個別的又は統合的に分析し、分析結果を出力することができる効果を発揮するので、産業上利用可能性も高い。

Claims (5)

  1. ハイブリッド音声認識複合性能自動評価システムであって、
    自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出するための端末言語理解部(140)、
    前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するための端末音声認識エンジン部(130)、
    前記端末言語理解部(140)から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバー(200)のサーバー言語理解部から提供された使用者の抽出された命令対象値、及びクラウドサーバー(200)のサーバー音声認識エンジン部から提供された音声認識結果値を比較していずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部(120)に提供するための結果調停部(150)、
    前記結果調停部(150)によって提供された駆動命令値をログ部(400)に記憶させるためのハイブリッド音声認識ミドルウェア部(120)、
    前記駆動命令値を記憶しているログ部(400)、及び
    音声認識評価自動化装置(300)と連結され、前記ログ部(400)に記憶されたログ情報を音声認識評価自動化装置(300)に提供するためのインターフェース部(110)を含んでなるハイブリッド端末機(100)と、
    前記ハイブリッド端末機(100)から伝送された音声を獲得して使用者の命令対象値を抽出するためのサーバー言語理解部(220)、及び
    使用者の命令対象値に基づいて音声認識結果値を抽出するためのサーバー音声認識エンジン部(210)を含んでなるクラウドサーバー(200)と、
    音声ボタンを押す場合、音声認識駆動命令を自動化制御部(310)に提供するためのウェイクアップ自動制御部(370)、
    音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供するための自動化制御部(310)、
    前記ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了するためのログ分析部(320)、
    前記ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出するための統合結果分析部(330)、
    端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析するための整合性結果分析部(340)、
    メモリに記憶されたカメラ映像とCAN通信情報を参照して音声認識が行われるとき、周辺環境情報を記録するための音声認識評価環境記録部(350)、及び
    前記統合結果分析部(330)によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力するための結果出力部(360)を含んでなる音声認識評価自動化装置(300)と、を含む、ハイブリッド音声認識複合性能自動評価システム。
  2. 前記自動化制御部(310)は、
    評価シナリオを記憶している評価シナリオ記憶部(316)と、
    前記評価シナリオ記憶部に記憶される評価シナリオを受ける評価シナリオ入力部(311)と、
    ログ分析部によって分析された音声認識開始時点と終了時点、プロンプト出力時点の情報を用いて評価シナリオの始めから音声認識自動評価を行い、音声認識開始部を動作させて自動で音声認識が行われるようにする自動評価開始部(312)と、
    自動評価開始部の制御によって自動で音声認識を実行するための音声認識開始部(313)と、
    音声認識実行時、テスト時間を減らすために案内プロンプトを中断させるための案内プロンプトスキップ部(314)と、
    ビープ音が発生した後に録音された音声情報を出力するための認識命令語DB再生部(315)と、
    評価シナリオによって評価項目が存在するかを判断し、存在しない場合、評価シナリオを終了するためのシナリオ終了判断部(317)と、を含むことを特徴とする、請求項1に記載のハイブリッド音声認識複合性能自動評価システム。
  3. 前記統合結果分析部(330)は、
    ハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値の相異なるフォーマットを分析して結果フォーマットの類型を判読するための認識結果フォーマット分別部(331)と、
    前記判読された結果フォーマットの類型が記録されている認識結果フォーマット分類記録部(332)と、
    前記記録された結果フォーマットの類型を参照してハイブリッド端末機又はクラウドサーバーのうちどこで実行したかを判断するための認識結果類型判断部(333)と、
    前記判断された結果値を参照して最終認識結果値として記録するための認識結果決定部(334)とを含んでなることを特徴とする、請求項1に記載のハイブリッド音声認識複合性能自動評価システム。
  4. 整合性結果分析部(340)は、
    音声認識が実行された後、画面GUIの変更をカメラを介して獲得し、正解画面と比較して相違点を区分する画面出力整合性検証モジュールと、
    音声認識結果、音声案内コメント出力音を正解音声と比較して整合性を判断する音声出力整合性検証モジュールとを含んでなることを特徴とする、請求項1に記載のハイブリッド音声認識複合性能自動評価システム。
  5. 前記ログ情報には、
    音声認識開始時間情報、マイク開/閉情報、及び音声区間抽出情報の少なくとも一つ以上の自動化処理のための情報と、
    音声認識結果情報、シナリオ遷移情報、及び案内プロンプト出力情報の少なくとも一つ以上の認識結果及び案内情報とを含むことを特徴とする、請求項1に記載のハイブリッド音声認識複合性能自動評価システム。
JP2019541061A 2016-10-11 2017-09-07 ハイブリッド音声認識複合性能自動評価システム Active JP6826205B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020160131527A KR101700099B1 (ko) 2016-10-11 2016-10-11 하이브리드 음성인식 복합 성능 자동 평가시스템
KR10-2016-0131527 2016-10-11
PCT/KR2017/009832 WO2018070668A1 (ko) 2016-10-11 2017-09-07 하이브리드 음성인식 복합 성능 자동 평가시스템

Publications (2)

Publication Number Publication Date
JP2019535044A true JP2019535044A (ja) 2019-12-05
JP6826205B2 JP6826205B2 (ja) 2021-02-03

Family

ID=57990618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019541061A Active JP6826205B2 (ja) 2016-10-11 2017-09-07 ハイブリッド音声認識複合性能自動評価システム

Country Status (4)

Country Link
US (1) US10643605B2 (ja)
JP (1) JP6826205B2 (ja)
KR (1) KR101700099B1 (ja)
WO (1) WO2018070668A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259498A1 (ja) * 2021-06-10 2022-12-15 日本電信電話株式会社 学習システム、学習方法及び学習プログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US11967318B2 (en) * 2019-01-08 2024-04-23 Samsung Electronics Co., Ltd. Method and system for performing speech recognition in an electronic device
KR102026479B1 (ko) * 2019-03-06 2019-09-30 주식회사 다이얼로그디자인에이전시 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템
CN111696523B (zh) * 2019-03-12 2024-03-01 大众问问(北京)信息科技有限公司 一种语音识别引擎的准确度测试方法、装置、电子设备
US11462216B2 (en) * 2019-03-28 2022-10-04 Cerence Operating Company Hybrid arbitration system
CN110211567A (zh) * 2019-05-13 2019-09-06 中国信息通信研究院 语音识别终端测评系统及方法
KR102228549B1 (ko) * 2019-06-11 2021-03-16 엘지전자 주식회사 음성 인에이블 디바이스 선택 방법, 음성 인에이블 디바이스 선택 장치 및 이를 제어하는 지능형 컴퓨팅 디바이스
CN110417589B (zh) * 2019-07-23 2022-11-29 徐州工程学院 一种车载语音云用户体验质量路测方法
CN110781279B (zh) * 2019-10-16 2022-04-01 云知声智能科技股份有限公司 一种构造asr/nlu引擎交叉优化数据闭环的方法及装置
CN110675876A (zh) * 2019-10-17 2020-01-10 珠海格力电器股份有限公司 一种语义识别智能控制方法、智能控制器、系统及存储介质
CN111179907A (zh) * 2019-12-31 2020-05-19 深圳Tcl新技术有限公司 语音识别测试方法、装置、设备及计算机可读存储介质
CN111782543A (zh) * 2020-07-20 2020-10-16 王天宝 一种在云端进行的评测方法、相关设备及系统
CN114079695A (zh) * 2020-08-18 2022-02-22 北京有限元科技有限公司 记录语音通话内容的方法、装置以及存储介质
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统
CN114363835A (zh) * 2021-12-16 2022-04-15 四川腾盾科技有限公司 一种基于无人机数据链声码化话音的自动ptt方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59162598A (ja) * 1983-03-08 1984-09-13 日本電気株式会社 音声認識装置認識率検査方式
JPH05323992A (ja) * 1992-05-20 1993-12-07 Mitsui Petrochem Ind Ltd 音声認識装置用検査教習システム
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2013232001A (ja) * 2008-08-29 2013-11-14 Multimodal Technologies Inc ハイブリッド型音声認識
JP2014062944A (ja) * 2012-09-20 2014-04-10 Sharp Corp 情報処理装置
US20140278439A1 (en) * 2013-03-14 2014-09-18 Accenture Global Services Limited Voice based automation testing for hands free module

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
KR20090013876A (ko) 2007-08-03 2009-02-06 한국전자통신연구원 음소를 이용한 분산형 음성 인식 방법 및 장치
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
KR20130029635A (ko) 2011-09-15 2013-03-25 현대모비스 주식회사 음성인식 성능 평가 모듈 및 그 방법
US20130151817A1 (en) * 2011-12-09 2013-06-13 Nokia Corporation Method, apparatus, and computer program product for parallel functional units in multicore processors
US8819345B2 (en) * 2012-02-17 2014-08-26 Nokia Corporation Method, apparatus, and computer program product for inter-core communication in multi-core processors
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
KR102225404B1 (ko) 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59162598A (ja) * 1983-03-08 1984-09-13 日本電気株式会社 音声認識装置認識率検査方式
JPH05323992A (ja) * 1992-05-20 1993-12-07 Mitsui Petrochem Ind Ltd 音声認識装置用検査教習システム
JP2013232001A (ja) * 2008-08-29 2013-11-14 Multimodal Technologies Inc ハイブリッド型音声認識
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2014062944A (ja) * 2012-09-20 2014-04-10 Sharp Corp 情報処理装置
US20140278439A1 (en) * 2013-03-14 2014-09-18 Accenture Global Services Limited Voice based automation testing for hands free module

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259498A1 (ja) * 2021-06-10 2022-12-15 日本電信電話株式会社 学習システム、学習方法及び学習プログラム

Also Published As

Publication number Publication date
WO2018070668A1 (ko) 2018-04-19
US20180342236A1 (en) 2018-11-29
JP6826205B2 (ja) 2021-02-03
US10643605B2 (en) 2020-05-05
KR101700099B1 (ko) 2017-01-31

Similar Documents

Publication Publication Date Title
JP2019535044A (ja) ハイブリッド音声認識複合性能自動評価システム
US11276407B2 (en) Metadata-based diarization of teleconferences
US10929514B2 (en) User registration method and device for smart robots
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US11545139B2 (en) System and method for determining the compliance of agent scripts
CN111164676A (zh) 经由环境语境采集进行的语音模型个性化
CN110047481B (zh) 用于语音识别的方法和装置
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN105070290A (zh) 人机语音交互方法及系统
US11133002B2 (en) Systems and methods of real-time vehicle-based analytics and uses thereof
US20160275968A1 (en) Speech detection device, speech detection method, and medium
KR20180052347A (ko) 음성 인식 장치 및 방법
CN109712610A (zh) 用于识别语音的方法和装置
DE112018007847B4 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
CN116324984A (zh) 用于生成音频信号的元数据的系统和方法
CN105575402A (zh) 网络教学实时语音分析方法
CN113779208A (zh) 用于人机对话的方法和装置
KR102020773B1 (ko) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
CN107680592A (zh) 一种移动终端语音识别方法、及移动终端及存储介质
US20180366127A1 (en) Speaker recognition based on discriminant analysis
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
US11710476B2 (en) System and method for automatic testing of conversational assistance
US11741989B2 (en) Non-verbal utterance detection apparatus, non-verbal utterance detection method, and program
CN112861816A (zh) 异常行为检测方法及装置
CN114077840A (zh) 语音对话系统的优化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210114

R150 Certificate of patent or registration of utility model

Ref document number: 6826205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250