JP2019535044A

JP2019535044A - ハイブリッド音声認識複合性能自動評価システム

Info

Publication number: JP2019535044A
Application number: JP2019541061A
Authority: JP
Inventors: スンピョリュ、; ミンキュソン、
Original assignee: メディアゼンインコーポレイテッド
Priority date: 2016-10-11
Filing date: 2017-09-07
Publication date: 2019-12-05
Anticipated expiration: 2037-09-07
Also published as: WO2018070668A1; US20180342236A1; JP6826205B2; US10643605B2; KR101700099B1

Abstract

本発明はハイブリッド音声認識複合性能自動評価システムに係り、より詳しくはハイブリッド端末機とクラウドサーバーを同時に使用して、ハイブリッド端末機を介しての音声認識と言語理解処理結果及びクラウドサーバーを介してのサーバー音声認識と言語理解処理結果を同時に自動的に評価することができるシステムを提供することにより、正確で早い性能と機能検証結果を出力することができるハイブリッド音声認識複合性能自動評価システムに関する。

Description

音声認識技術（ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）はマイクロホンを介して入力された使用者の音声をコンピュータが分析し、特徴を抽出し、予め入力された単語又は文章に近接した結果を命令語として認識し、認識された命令語に相応する動作を実行するようにする技術である。

既存の音声認識システムは、車両、モバイルなどの端末機の内部に音声認識エンジンが組み込まれる端末音声認識方式と、スマートフォンインターネット音声検索及び各種の情報処理のためのクラウドに基づくサーバー音声認識方式がそれぞれサービス用途に合わせて弁別的に使われて来た。

そして、認識文法に基づく端末音声認識システムの高い認識率という側面での利点と、文章単位の認識というサーバー音声認識の利点を一緒に活用することができるハイブリッド音声認識（ＨｙｂｒｉｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）技術が市場に適用されている。

前述したハイブリッド音声認識は、使用者の一発話に対して端末音声認識エンジンとサーバー音声認識エンジンを同時に駆動させて２個以上の複数の結果値を受信することができ、前記２個の値のうちより良い結果値を命令駆動に使うことができる調停アルゴリズム（ＡｒｂｉｔｒａｔｉｏｎＡｌｇｏｒｉｔｈｍ）が核心的役割を担当する。

端末音声認識の結果は、普通の場合、単語（Ｗｏｒｄ）として、サーバー音声認識の結果は、普通の場合、文章（Ｓｅｎｔｅｎｃｅ）として、言語理解モジュールの結果は、普通の場合、意図（Ｉｎｔｅｎｔｉｏｎ）及び一つ以上の複数の対象枠（Ｓｌｏｔ）として出力されるなど、互いに異なる類型の結果が状況に応じて可変的に導出されるので、既存の音声認識評価システムではハイブリッド音声認識に対する評価を担当することができなかった。

すなわち、既存音声認識自動テストに係る発明は、たいてい実車環境を考慮したものではない、ＰＣに音声認識システムを備え、認識対象語彙を自動で入力して結果を集計するバッチ（Ｂａｔｃｈ）方式と、テスト環境の造成時にノイズと音声の比率を自動で調整する音量調整装置などの技術を中心になされていた。

しかし、最近、音声認識は、認識結果の規格が互いに異なる端末音声認識とクラウドに基づくサーバー音声認識が同時に駆動されるハイブリッド方式に対する統合性能検証が必要であるので、互いに異なる規格の結果を統合して分析することができるアルゴリズムと運営方案が必要である。

特に、既存の音声認識自動化評価システムは、音声認識率を測定するための音声ＤＢ自動出力装置又はノイズ環境を調整することができる調節装置などを中心に発展して来た。

しかし、最近、音声認識は、認識結果の規格の相異なる端末音声認識とクラウドに基づくサーバー音声認識が同時に駆動されるハイブリッド方式に対する統合性能検証が必要であるので、互いに異なる規格の結果を統合して分析することができるアルゴリズムと運営方案が必要である。

例えば、車両用音声認識システムの場合、実車の高速走行環境で多国語のネーティブスピーカーを直接車両に乗らせ、決まった命令語を発話するように指導した後、検収者が同乗して認識結果を手動でチェックする方式が一般的である。

しかし、このような実車テスト方式は、数百人単位のネーティブスピーカー渉外の問題、テスト場所までの引率及び管理の問題、高速走行の状況による安全問題、認識結果の手記による効率性低下の問題、莫大な結果データの精製及び分析時間の過多所要の問題、繰り返しテスト不可の問題などの多様な現実的問題に直面して、現実的に有意な統計的結果の算出に十分な程度のテスト実施が難しい問題が発生するため、これに対する解決技術が必要になった。

したがって、本発明は前記のような従来技術の問題点に鑑みて提案されたもので、本発明の第１目的は、ハイブリッド端末機の音声認識結果自動検証及び言語理解結果自動検証とクラウドサーバーの音声認識結果自動検証、言語理解結果自動検証及びシステム内部の調停結果検証などを個別的又は統合的に分析し、分析結果を出力することができるようにすることにある。

本発明の第２目的は、ハイブリッド端末機及びクラウドサーバーでの多様な音声認識結果に対して一度に処理可能な機能を提供することにより、従来にそれぞれ数回にかけて個別的に進めるしかなかった単純反復的な自動化を複合処理の可能な高効率システムに性能アップグレードすることができるようにすることにある。

本発明の第３目的は、ハイブリッド音声認識プラットホームの内部で行われる認識の過程をログを介して分析し、自動的に音声認識の性能を評価するハイブリッド音声認識評価自動化システムを提供するとともに画面出力の整合性、音声案内出力の整合性、テスト環境情報の記録などの複合機能を付け加えることによって性能評価の信頼度を大きく高めることができるようにすることにある。

本発明の第４目的は、音声認識評価環境記録部によって、実際の車両が走行する環境で路面、天気、周辺状況などを確認することができるカメラ映像部とＣＡＮ通信情報から速度、エンジン状態、空調状態などが分かるＣＡＮ通信分析部を連携し、各種のテスト環境情報を結果出力部に送って複合性能結果にマッピングすることにより、車両用音声認識性能評価の信頼性を高め、環境情報に対する体系的な管理ができるようにすることにある。

本発明が解決しようとする課題を達成するために、ハイブリッド音声認識複合性能自動評価システムは、
自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出するための端末言語理解部（１４０）、
前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するための端末音声認識エンジン部（１３０）、
前記端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値、及びクラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値を比較していずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部に提供するための結果調停部（１５０）、
前記結果調停部によって提供された駆動命令値をログ部（４００）に記憶させるためのハイブリッド音声認識ミドルウェア部（１２０）、
前記駆動命令値を記憶しているログ部（４００）、及び
音声認識評価自動化装置（３００）と連結され、前記ログ部に記憶されたログ情報を提供するためのインターフェース部（１１０）を含んでなるハイブリッド端末機（１００）と、
前記ハイブリッド端末機（１００）から伝送された音声を獲得して使用者の命令対象値を抽出するためのサーバー言語理解部（２２０）、及び
使用者の命令対象値に基づいて音声認識結果値を抽出するためのサーバー音声認識エンジン部（２１０）を含んでなるクラウドサーバー（２００）と、
音声ボタンを押す場合、音声認識駆動命令を自動化制御部に提供するためのウェイクアップ自動制御部（３７０）、
前記音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供するための自動化制御部（３１０）、
前記ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了するためのログ分析部（３２０）、
前記ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出するための統合結果分析部（３３０）、
端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析するための整合性結果分析部（３４０）、
メモリに記憶されたカメラ映像とＣＡＮ通信情報を参照して音声認識が行われるとき、周辺環境情報を記録するための音声認識評価環境記録部（３５０）、及び
前記統合結果分析部によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力するための結果出力部（３６０）を含んでなる音声認識評価自動化装置（３００）とを含む。

以上の構成及び作用を有する本発明によるハイブリッド音声認識複合性能自動評価システムにより、ハイブリッド端末機の音声認識結果自動検証及び言語理解結果自動検証とクラウドサーバーの音声認識結果自動検証、言語理解結果自動検証及びシステム内部の調停結果検証などを個別的又は統合的に分析し、分析結果を出力することができる効果を発揮するようになる。

また、ハイブリッド端末機及びクラウドサーバーでの多様な音声認識結果に対して一度に処理可能な機能を提供することにより、従来にそれぞれ数回にかけて個別的に進めるしかなかった単純反復的な自動化を複合処理の可能な高効率システムに性能アップグレードすることができる効果を発揮するようになる。

また、本発明のハイブリッド音声認識プラットホームの内部で行われる認識の過程をログを介して分析し、自動的に音声認識の性能を評価するハイブリッド音声認識評価自動化システムを提供するとともに画面出力の整合性、音声案内出力の整合性、テスト環境情報の記録などの複合機能を付け加えることによって性能評価の信頼度を大きく高めることができる効果を発揮するようになる。

すなわち、画面出力検証と音声出力検証結果を結果分析部に提供し、統合結果分析部で処理された評価結果にマッピングすることにより、認識性能と動作性能を複合的に評価することができるようになる。

例えば、普通認識性能と動作性能は別に測定されるので２倍の時間がかかるが、本発明によって一度に２種の評価を自動的に実施することができるようになる。

また、音声認識評価環境記録部によって、実際の車両が走行する環境で路面、天気、周辺状況などを確認することができるカメラ映像部とＣＡＮ通信情報から速度、エンジン状態、空調状態などが分かるＣＡＮ通信分析部を連携し、各種のテスト環境情報を結果出力部に送って複合性能結果にマッピングすることにより、車両用音声認識性能評価の信頼性を高め、環境情報に対する体系的な管理が可能な効果を発揮するようになる。

本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムを概略的に示した全体構成図である。本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムのハイブリッド端末機及びクラウドサーバーのブロック図である。本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの音声認識評価自動化装置のブロック図である。本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの自動化制御部のブロック図である。本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの統合結果分析部のブロック図である。

以下の内容は単に本発明の原理を例示する。したがって、当業者は、たとえこの明細書に明確に説明乃至図示されていないが、本発明の原理を具現し、本発明の概念と範囲に含まれた多様な装置を発明することができるものである。

また、本明細書に列挙した全ての条件付の用語及び実施例は原則的に本発明の概念が理解されるようにするための目的であるだけ、このように特別に列挙した実施例及び状態に制限されないものと理解されなければならない。

本発明の課題を解決するための手段は下記のようである。

すなわち、本発明のハイブリッド音声認識複合性能自動評価システムは、
自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出するための端末言語理解部１４０、
前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するための端末音声認識エンジン部１３０、
前記端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値、及びクラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値を比較していずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部に提供するための結果調停部１５０、
前記結果調停部によって提供された駆動命令値をログ部４００に記憶させるためのハイブリッド音声認識ミドルウェア部１２０、
前記駆動命令値を記憶しているログ部４００、及び
音声認識評価自動化装置３００と連結され、前記ログ部に記憶されたログ情報を提供するためのインターフェース部１１０を含んでなるハイブリッド端末機１００と、
前記ハイブリッド端末機から伝送された音声を獲得して使用者の命令対象値を抽出するためのサーバー言語理解部２２０、及び
使用者の命令対象値に基づいて音声認識結果値を抽出するためのサーバー音声認識エンジン部２１０を含んでなるクラウドサーバー２００と、
音声ボタンを押す場合、音声認識駆動命令を自動化制御部に提供するためのウェイクアップ自動制御部３７０、
前記音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供するための自動化制御部３１０、
前記ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了するためのログ分析部３２０、
前記ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出するための統合結果分析部３３０、
端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析するための整合性結果分析部３４０、
メモリに記憶されたカメラ映像とＣＡＮ通信情報を参照して音声認識が行われるとき、周辺環境情報を記録するための音声認識評価環境記録部３５０、及び
前記統合結果分析部によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力するための結果出力部３６０を含んでなる音声認識評価自動化装置３００と、を含む。

以下では、本発明によるハイブリッド音声認識複合性能自動評価システムの実施例を詳細に説明する。

図１は本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムを概略的に示した全体構成図である。

図１に示すように、大別して、ハイブリッド端末機１００、クラウドサーバー２００、及び音声認識評価自動化装置３００を含んでなる。

前記のように、本発明のシステムは、ハイブリッド端末機とクラウドサーバーを同時に使用して、音声認識を処理し、ログ情報を音声認識評価自動化装置から獲得してログを分析し、音声認識評価を自動的に行うものである。

すなわち、前記ハイブリッド端末機は、端末音声認識、サーバー音声認識、端末言語理解、サーバー言語理解の結果及び調停（Ａｒｂｉｔｒａｔｉｏｎ）結果を算出する機能をする。

前記ハイブリッド端末機、クラウドサーバー、音声認識評価自動化装置の具体的な構成手段を下記の図面に基づいて具体的に説明する。

図２は本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムのハイブリッド端末機及びクラウドサーバーのブロック図である。

図２に示すように、前記ハイブリッド端末機１００は、インターフェース部１１０、ハイブリッド音声認識ミドルウェア部１２０、端末音声認識エンジン部１３０、端末言語理解部１４０、結果調停部１５０及びログ部４００を含んでなる。

前記インターフェース部１１０は音声認識評価自動化装置３００と連結され、前記ログ部に記憶されたログ情報を提供する。

前記連結はネットワーク網を介してなされる。

前記端末言語理解部１４０は自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出する。

前述した端末言語理解（ＥｍｂｅｄｄｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）技術は、電子器機の内部に規則に基づく（ＲｕｌｅＢａｓｅｄ）アルゴリズム又は統計モデル（ＳｔａｔｉｓｔｉｃＭｏｄｅｌ）を用いる自然語処理モジュールを内蔵し、音声認識結果テキストから使用者の最終目標である命令意図（Ｉｎｔｅｎｔｉｏｎ、Ｇｏａｌ）と具体的な命令対象（ＮａｍｅｄＥｎｔｉｔｙ）を自動で抽出する方法を意味し、前記端末言語理解部を介して自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出する。

前記使用者の命令対象値を抽出する技術は一般的な技術であるので、詳細な説明は省略する。

また、前記端末音声認識エンジン部１３０は、前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出する機能をする。

前述した端末音声認識（ＥｍｂｅｄｄｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）技術は電子器機の内部に音声認識ＤＢ及びモデル、パターンマッチングアルゴリズムなどを用いる技術であり、前述した端末音声認識エンジン部を介して予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するものである。

すなわち、普通認識機が理解することができる認識文法（Ｇｒａｍｍａｒ）に基づいて音声認識が行われ、認識対象リストが決まっており、その対象リストのみ認識結果として出力されることができる構造を有する。

一方、クラウドサーバー２００は、図２に示すように、サーバー言語理解部２２０とサーバー音声認識エンジン部２１０を含んでなる。

前記サーバー言語理解部２２０はハイブリッド端末機から伝送された音声を獲得して使用者の命令対象値を抽出する機能をする。サーバー基盤言語理解技術（ＳｅｒｖｅｒＢａｓｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）はサーバー音声認識結果として出力された文章テキストから発話者の意図及び対象を把握し、最終的な音声認識実行目的を自動で抽出する。

また、前記サーバー音声認識エンジン部２１０は使用者の命令対象値に基づいて音声認識結果値を抽出する。サーバーに基づく音声認識技術（ＳｅｒｖｅｒＢａｓｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は電子器機の内部に含まれたマイク及びその他の録音装備に入力された音声をクラウドに基づくサーバー音声認識エンジン部に伝送し、これを認識した認識結果をハイブリッド端末機に提供する。

従来の音声認識システムは、車両、モバイルなどの端末機の内部に音声認識エンジンが組み込まれる端末音声認識方式と、スマートフォンインターネット音声検索及び各種の情報処理のためのクラウドに基づくサーバー音声認識方式がそれぞれサービス用途に合わせて弁別的に使われて来た。

しかし、認識文法に基づく端末音声認識システムの高い認識率という側面での利点と、文章単位の認識というサーバー音声認識の利点を一緒に活用することができるハイブリッド音声認識（ＨｙｂｒｉｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）技術が市場に適用されている。

本発明で説明しているハイブリッド音声認識は、使用者の一つの発話に対して端末音声認識エンジンとサーバー音声認識エンジンを同時に駆動させて２個以上の複数の結果値を受信することができ、その２個の値のうちより良い結果値を命令駆動に使うことができる調停アルゴリズム（ＡｒｂｉｔｒａｔｉｏｎＡｌｇｏｒｉｔｈｍ）が核心的役割を担当する。

前述した調停アルゴリズムを用いてより良い結果値を命令駆動に使うために結果調停部１５０を構成する。

すなわち、前記結果調停部１５０は、端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値、クラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値を比較し、いずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部に提供する。

以下では、端末言語理解部から提供された音声認識結果テキストから抽出された命令対象値を端末言語理解と、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値を端末音声認識と、クラウドサーバーのサーバー言語理解部から提供された使用者の抽出された命令対象値をサーバー言語理解と、クラウドサーバーのサーバー音声認識エンジン部から提供された音声認識結果値をサーバー音声認識と、結果調停部で調停された駆動命令値を調停結果という用語で定義して説明する。

ここで、前記ハイブリッド音声認識ミドルウェア部１２０は、前記結果調停部によって提供された駆動命令値をログ部４００に記憶させる機能をする。

すなわち、ハイブリッド端末機１００から最終的に出力される結果を選別する役割を担当し、前記インターフェース部１１０を介してログ情報４００を音声認識評価自動化装置３００に伝達する。

そして、ハイブリッド音声認識ミドルウェア部１２０は、端末音声認識エンジン部１３０とサーバー音声認識エンジン部２１０を順次又は同時実行する場合、結果調停部１５０まで通過する場合、端末言語理解又はサーバー言語理解まで行う場合などの多様な組合せの駆動が可能である。

ここで、ハイブリッド音声認識ミドルウェア部１２０を介して出力される認識結果はいずれもログ部４００に記憶され、前記ログ部４００に記憶されたログ情報はインターフェース部１１０と自動化制御部３１０間の通信によって伝達される。

前記ログ部４００には駆動命令値が記憶されている。これはログ情報として記憶されている。

前記ログ情報には、音声認識開始時間情報、マイク開／閉情報、音声区間抽出情報のような自動化処理のための情報と、音声認識結果情報、シナリオ遷移情報、案内プロンプト出力情報のような認識結果及び案内情報が含まれている。

図３は本発明の一実施例によるハイブリッド音声認識複合性能自動評価システムの音声認識評価自動化装置のブロック図である。

図３に示すように、前記音声認識評価自動化装置３００は、自動化制御部３１０、ログ分析部３２０、統合結果分析部３３０、整合性結果分析部３４０、音声認識評価環境記録部３５０、及び結果出力部３６０を含んでなる。

前記のように、音声認識評価自動化装置を用いれば、実際の車両環境でのテストを自動化することができる機能をすることができる。すなわち、車両に装着されたナビゲーション又はオーディオ端末機に内蔵された音声認識システムを変形なしに直接連結して自動化評価を行うことができる。

構成手段について以下で具体的に説明する。

前記ウェイクアップ自動制御部３７０（ＰＴＴ＆ＷａｋｅＵｐ）は、使用者が音声ボタンを押す場合、音声認識駆動命令を自動化制御部に提供する機能をする。

すなわち、音声認識の開始又は中断を判断する構成手段であって、ボタンを押して車両用音声認識を駆動させるか、決まった呼出し命令語を認識して車両用音声認識を駆動させることを制御する部分である。

例えば、車両用音声認識を自動的に評価するためには評価実行プロセスに従わなければならない。認識実行プロセスの最初と繰り返しの開始時点でウェイクアップ自動制御部３７０（ＰＴＴ＆ＷａｋｅＵｐ）が駆動される。

従来の自動テスト方式はナビゲーションなどの実際音声認識始動キーの物理的入力が必要な状態の評価環境が考慮されなかった方式であるので自動的評価の問題点を発生させるが、前記のようにウェイクアップ自動制御部を構成して物理的に自動化した始動方法を適用することによってこのような問題点を改善する。

そして、別途の作業なしに単純にシリアル通信を連結し、自動車ハンドルに付着された音声認識開始ボタン（ＰＴＴ：ＰｕｓｈｔｏＴａｌｋＢｕｔｔｏｎ）を音声認識タイミングに合わせて自動で制御する自動化制御部３１０が必ず必要である。

前記自動化制御部３１０は、ウェイクアップ自動制御部から音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供する。

また、前記自動化制御部は全体音声認識自動評価プロセスを実行し、このために、図４に示すように、評価シナリオ入力部３１１、評価シナリオ記憶部３１６、自動評価開始部３１２、音声認識開始部３１３、案内プロンプトスキップ部３１４、認識命令語ＤＢ再生部３１５、及びシナリオ終了判断部３１７を含んでなる。

前記評価シナリオ記憶部３１６は評価シナリオを記憶しており、前記評価シナリオ入力部３１１を介して評価シナリオを受ける。

ここで、前記評価シナリオ入力部によって全体評価リスト及び手順情報をアップロードすることになる。

前記自動評価開始部３１２は、ログ分析部によって分析された音声認識開始時点と終了時点、プロンプト出力時点の情報を用いて評価シナリオの始めから音声認識自動評価を行い、音声認識開始部を動作させて自動で音声認識を行う。

具体的に、自動評価が開始されれば、ログ分析部３２０によって分析された音声認識開始時点及び終了時点、プロンプト出力時点などの情報を活用して自動的に音声認識を開始又は終了する。

ここで、前記自動評価開始部３１２は評価シナリオの始めから音声認識自動評価を実施し、音声認識開始部３１３を呼び出して自動で音声認識が行われるようにする。

音声認識が始まるためにはＰＴＴボタン又はＷａｋｅＵｐＣｏｍｍａｎｄを実行しなければならない。この時点で、自動にウェイクアップ自動制御部を呼び出して音声認識を物理的に開始することになる。

音声認識開始時点はログ情報の分析によって確認し、一定の時間ごとに到逹するログを分析して自動化タイミングを設定する。

一方、音声認識が始まれば、案内プロンプトと命令語を言うタイミングを知らせるビープ音が発生する。この際、案内プロンプトスキップ部３１４によって案内プロンプトを中断して全体テスト時間を節約する方法を用いることができる。

そして、認識命令語ＤＢ再生部３１５によってビープ音が発生した後、録音された音声情報を出力することになる。

すなわち、ビープ音が発生した後に自動で人の代わりに録音された音声情報を出力することになる。これを認識命令語ＤＢ再生部３１５で行う。

その後、統合結果分析部３３０で認識結果を処理した後にはシナリオ終了判断部３１７で終了可否を判断する。評価シナリオに従って、評価項目がもっと残ったときには音声認識開始部３１３にルーチンされて音声認識を再開し、終了しなければならない場合には、結果出力部３６０によって評価を終了した後、結果を文書又は画面に出力する。

すなわち、前記シナリオ終了判断部３１７によって、評価シナリオに従って、評価項目が存在するかを判断し、存在しない場合に評価シナリオを終了する。

前記ログ分析部３２０は、ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了する機能をする。

すなわち、ログ情報には、音声認識開始時間情報、マイク開／閉情報、音声区間抽出情報のような自動化処理のための情報と、音声認識結果情報、シナリオ遷移情報、案内プロンプト出力情報のような認識結果及び案内情報が含まれている。これを分析することになる。

具体的に説明すると、前記ログ分析部によるログ分析方式の音声認識自動化制御方式は、例えば車両装着された端末機を制御するために構成される構成手段であって、既存の自動化システムが別途のプログラムの組込みを必要とすることに起因する多くの問題点を解決する手段として活用される。

また、最近、車両用音声認識は、“ナビゲーション”のように決まった命令語を発話してその結果を出力する孤立単語に基づく音声認識だけではなく、“ナビゲーションが見たいのでオンにしてみて”のように全体文章単位で発話し、その中に内包された意味を分析して話し手の意図と行動様式を予測するマシンランニングに基づく言語処理技術が活用されているので、端末言語理解部１４０及びサーバー言語理解部２２０の動作結果による分期シナリオを追跡して認識率を算出する必要がある。

したがって、統合結果分析部を構成することで、端末音声認識結果自動検証、端末言語理解結果自動検証、サーバー音声認識結果自動検証、サーバー言語理解結果自動検証、調停結果検証などを個別的に又は統合的に分析し、結果出力部によって結果を出力することができる。

そして、統合結果分析部は、端末音声認識結果、端末言語理解結果、サーバー音声認識結果、サーバー言語理解結果を統合的に分析することができるので、端末音声認識又はサーバー音声認識を無作為に実行しても自動的に結果処理及び分析を行うことができる。

従来の評価システムはＡｇｅｎｔプログラムをナビゲーション端末機に組み込む方式を主に用いるが、これはシステム負荷を生じさせて誤作動を引き起こすことができるから、前記のようにログ分析部によるログ分析を用いて前述した問題点を解決する。

次に、統合結果分析部３３０の構成手段及び動作を図５に基づいて具体的に説明する。

図５に示す統合結果分析部３３０は、ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出する機能をする。

すなわち、端末音声認識結果、端末言語理解結果、サーバー音声認識結果、サーバー言語理解結果、調停結果などを分析して評価結果を算出する。これは、最終的にただ一つの動作のみを運転者に提供する。

前記のような機能をするために、前記統合結果分析部３３０は、認識結果フォーマット分別部３３１、認識結果フォーマット分類記録部３３２、認識結果類型判断部３３３、及び認識結果決定部３３４を含んでなる。

前記認識結果フォーマット分別部３３１は、ハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値の相異なるフォーマットを分析して結果フォーマットの類型を判読し、認識結果フォーマット分類記録部３３２に判読された結果フォーマットの類型を記録する。

そして、前記認識結果類型判断部３３３は前記記録された結果フォーマットの類型を参照してハイブリッド端末機又はクラウドサーバーのうちどこで実行したかを判断する。具体的に、分析された結果が、端末認識、端末言語理解、サーバー認識、サーバー言語理解、調停結果の中でどの結果であるかを判断する。

ここで、認識結果決定部３３４は、前記判断された結果値を参照して最終認識結果値として記録する。

その後、最終的に、認識結果値は結果フォーマットによって結果出力部３６０に提供されて画面ＵＩに表示される。

一方、本発明の音声認識評価自動化装置３００は、図３に示すように、整合性結果分析部３４０をさらに含んでなることができる。

前記整合性結果分析部３４０は、端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析する。

すなわち、最終結果として行われる画面表示の適切性と音声案内コメントの有効性などを複合的に評価して、認識率とともに正常な動作の確認もできるように画面出力の整合性と音声出力の整合性を分析する。

このために、前記整合性結果分析部３４０は、音声認識が行われた後、画面ＧＵＩの変更をカメラによって獲得して正解画面と比較して相違点を区分する画面出力整合性検証モジュール、及び音声認識結果、音声案内コメント出力音を正解音声と比較して整合性を判断する音声出力整合性検証モジュールを含んでなることができる。

ここで、画面出力整合性検証モジュールは、カメラに動作信号を送出し、撮影された映像情報を獲得し、予め記憶された正解画面と比較して相違点を区分することになる。

ここで、音声出力整合性検証モジュールは、例えば復命復唱案内音又は特定のシナリオで正確に出力されなければならない音声案内コメント出力音を正解音声メントと比較することによって整合性を判断する。

前記の画面出力検証と音声出力検証の結果を統合結果分析部３３０に提供して統合結果分析部で分析された評価結果にマッピングすることにより、認識性能と動作性能を複合的に評価することができる。

一般に、普通認識性能と動作性能は別に測定されるから２倍の時間がかかるが、前述したように、本発明によって一度に２種の評価を自動的に実行することができる。

また、前記分析された整合性結果情報を結果出力部に提供する。

一方、本発明の音声認識評価自動化装置３００は、図３に示すように、音声認識評価環境記録部３５０をさらに含んでなることができる。

前記音声認識評価環境記録部３５０は、メモリに記憶されたカメラ映像とＣＡＮ通信情報を参照して、音声認識が行われるときの周辺環境情報を記録する。

自動車は、例えばカメラ映像部を構成しており、該当自動車が実際に走行する環境で路面、天気、周辺状況などを映像で撮影することになり、該当撮影情報が記憶されたメモリからカメラ映像を獲得することになる。

また、ＣＡＮ通信分析部によって速度、エンジン状態、空調状態などを分析することになり、該当の分析されたＣＡＮ通信情報を獲得することになる。

ここで、最終的に、カメラ映像とＣＡＮ通信情報を参照して音声認識が行われるときの周辺環境情報を一緒に記録することになる。

その後、最終的に、前記結果出力部３６０は、統合結果分析部によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力することになる。

したがって、音声認識システムの複合性能（ＭｕｌｔｉｐｌｅＰｅｒｆｏｒｍａｎｃｅ）に対する検証も一緒に行うことができる利点を提供する。

一般的な音声認識システムは、認識率だけではなく、結果出力及び音声出力まで全て確認した後にだけ量産性を確認することができる。

したがって、別に行われるテストによって総所要時間が長くなる問題点を改善することができるので、既存にそれぞれ実行されたテストに比べて、総所要時間を大幅節減することができる。

そして、手動で行っていた画面確認及び出力音声確認を認識率評価時に同時に進めることができることになるので、既存に認識率のみ評価するシステムに比べて高い活用性を確保することができる。

また、音声認識自動化評価結果に基づいて音声認識性能を改善するためには音声認識性能低下の原因を分析しなければならない。この際、詳細な音声認識実行状況情報が非常に重要な手がかりとなる。

したがって、本発明では、車両速度、空調の大きさ、窓開閉、路面、天気などの多様な条件を確認することができるカメラ映像とＣＡＮ情報を取得して音声認識実行情報に追加的に記録する。

前記のような音声認識実行時の周辺環境情報は音声認識性能の改善及びチューニングの進行のために非常に重要な情報として活用され、どのくらい正確なテスト状態情報を提供することができるかによって評価装置の活用度が左右されることができるから、前記のように音声認識評価環境記録部を構成し、これを結果出力部を介して統合的に出力することになる。

本発明のシステムにより、多様な音声認識結果に対して一度に処理できるようになるので、既存の性能評価システムではそれぞれ数回にかけて個別的に進めるしかなかった単純反復的な自動化を複合処理の可能な高効率システムに進化させることができる。

また、本発明で説明している複合機能とは、ハイブリッド音声認識プラットホームの内部で行われる認識の過程をログによって分析し、自動的に音声認識の性能を評価するにあたり、画面出力の整合性と音声案内出力の整合性、テスト環境情報の記録などを付け加えることを意味し、これによって性能評価の信頼度を大きく高めることができ、環境情報に対する体系的な管理が可能な利点を提供することができる。

要約すると、ハイブリッド音声認識システムの相異なる結果に対して統合的に分析する統合結果分析部３３０と音声認識環境及び動作性能を分析する整合性結果分析部３４０によって、従来技術で解決することができなかった異種結果分析自動化と多重検証結果出力の問題を解決することができる。

また、以上では本発明の好適な実施例について図示しながら説明したが、本発明は上述した特定の実施例に限定されなく、請求範囲で請求する本発明の要旨を逸脱することなしに本発明が属する技術分野で通常の知識を有する者によって多様な変形実施が可能であるのはいうまでもなく、このような変形実施は本発明の技術的思想又は見込みから個別的に理解されてはいけないであろう。

本発明によるハイブリッド音声認識複合性能自動評価システムにより、ハイブリッド端末機の音声認識結果自動検証及び言語理解結果自動検証とクラウドサーバーの音声認識結果自動検証、言語理解結果自動検証及びシステム内部の調停結果検証などを個別的又は統合的に分析し、分析結果を出力することができる効果を発揮するので、産業上利用可能性も高い。

Claims

ハイブリッド音声認識複合性能自動評価システムであって、
自然語処理モジュールを含んでなり、前記自然語処理モジュールによって処理された音声認識結果テキストから使用者の命令対象値を抽出するための端末言語理解部（１４０）、
前記抽出された使用者の命令対象値に基づいて予め入力された単語又は文章に近接した結果を命令語と認識し、認識結果値を抽出するための端末音声認識エンジン部（１３０）、
前記端末言語理解部（１４０）から提供された音声認識結果テキストから抽出された命令対象値、端末音声認識エンジン部から提供された予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバー（２００）のサーバー言語理解部から提供された使用者の抽出された命令対象値、及びクラウドサーバー（２００）のサーバー音声認識エンジン部から提供された音声認識結果値を比較していずれか一つの認識結果値を駆動命令値と指定してハイブリッド音声認識ミドルウェア部（１２０）に提供するための結果調停部（１５０）、
前記結果調停部（１５０）によって提供された駆動命令値をログ部（４００）に記憶させるためのハイブリッド音声認識ミドルウェア部（１２０）、
前記駆動命令値を記憶しているログ部（４００）、及び
音声認識評価自動化装置（３００）と連結され、前記ログ部（４００）に記憶されたログ情報を音声認識評価自動化装置（３００）に提供するためのインターフェース部（１１０）を含んでなるハイブリッド端末機（１００）と、
前記ハイブリッド端末機（１００）から伝送された音声を獲得して使用者の命令対象値を抽出するためのサーバー言語理解部（２２０）、及び
使用者の命令対象値に基づいて音声認識結果値を抽出するためのサーバー音声認識エンジン部（２１０）を含んでなるクラウドサーバー（２００）と、
音声ボタンを押す場合、音声認識駆動命令を自動化制御部（３１０）に提供するためのウェイクアップ自動制御部（３７０）、
音声認識駆動命令値を獲得する場合、ハイブリッド端末機のインターフェース部から提供されたログ情報をログ分析部に提供するための自動化制御部（３１０）、
前記ログ情報に基づいて分析された音声認識開始時点と終了時点の情報を用いて音声認識を開始するか終了するためのログ分析部（３２０）、
前記ログ情報に基づいてハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値を分析して評価結果を算出するための統合結果分析部（３３０）、
端末機の画面に使用者の音声命令と一致する結果値が出力されるかを分析し、使用者の音声命令にマッチする音声確認案内コメントが出力されるかを分析するための整合性結果分析部（３４０）、
メモリに記憶されたカメラ映像とＣＡＮ通信情報を参照して音声認識が行われるとき、周辺環境情報を記録するための音声認識評価環境記録部（３５０）、及び
前記統合結果分析部（３３０）によって算出された評価結果、前記整合性結果分析部によって分析された整合性検証結果、前記音声認識評価環境記録部によって記録された周辺環境情報を同時に出力するための結果出力部（３６０）を含んでなる音声認識評価自動化装置（３００）と、を含む、ハイブリッド音声認識複合性能自動評価システム。
前記自動化制御部（３１０）は、
評価シナリオを記憶している評価シナリオ記憶部（３１６）と、
前記評価シナリオ記憶部に記憶される評価シナリオを受ける評価シナリオ入力部（３１１）と、
ログ分析部によって分析された音声認識開始時点と終了時点、プロンプト出力時点の情報を用いて評価シナリオの始めから音声認識自動評価を行い、音声認識開始部を動作させて自動で音声認識が行われるようにする自動評価開始部（３１２）と、
自動評価開始部の制御によって自動で音声認識を実行するための音声認識開始部（３１３）と、
音声認識実行時、テスト時間を減らすために案内プロンプトを中断させるための案内プロンプトスキップ部（３１４）と、
ビープ音が発生した後に録音された音声情報を出力するための認識命令語ＤＢ再生部（３１５）と、
評価シナリオによって評価項目が存在するかを判断し、存在しない場合、評価シナリオを終了するためのシナリオ終了判断部（３１７）と、を含むことを特徴とする、請求項１に記載のハイブリッド音声認識複合性能自動評価システム。
前記統合結果分析部（３３０）は、
ハイブリッド端末機の音声認識結果テキストから抽出された命令対象値、予め入力された単語又は文章に近接した結果を命令語と認識して抽出された認識結果値、クラウドサーバーの抽出された命令対象値、音声認識結果値及び結果調停部によって指定された駆動命令値の相異なるフォーマットを分析して結果フォーマットの類型を判読するための認識結果フォーマット分別部（３３１）と、
前記判読された結果フォーマットの類型が記録されている認識結果フォーマット分類記録部（３３２）と、
前記記録された結果フォーマットの類型を参照してハイブリッド端末機又はクラウドサーバーのうちどこで実行したかを判断するための認識結果類型判断部（３３３）と、
前記判断された結果値を参照して最終認識結果値として記録するための認識結果決定部（３３４）とを含んでなることを特徴とする、請求項１に記載のハイブリッド音声認識複合性能自動評価システム。
整合性結果分析部（３４０）は、
音声認識が実行された後、画面ＧＵＩの変更をカメラを介して獲得し、正解画面と比較して相違点を区分する画面出力整合性検証モジュールと、
音声認識結果、音声案内コメント出力音を正解音声と比較して整合性を判断する音声出力整合性検証モジュールとを含んでなることを特徴とする、請求項１に記載のハイブリッド音声認識複合性能自動評価システム。
前記ログ情報には、
音声認識開始時間情報、マイク開／閉情報、及び音声区間抽出情報の少なくとも一つ以上の自動化処理のための情報と、
音声認識結果情報、シナリオ遷移情報、及び案内プロンプト出力情報の少なくとも一つ以上の認識結果及び案内情報とを含むことを特徴とする、請求項１に記載のハイブリッド音声認識複合性能自動評価システム。