JP2008058813A - Voice response system, and voice response program - Google Patents

Voice response system, and voice response program Download PDF

Info

Publication number
JP2008058813A
JP2008058813A JP2006237980A JP2006237980A JP2008058813A JP 2008058813 A JP2008058813 A JP 2008058813A JP 2006237980 A JP2006237980 A JP 2006237980A JP 2006237980 A JP2006237980 A JP 2006237980A JP 2008058813 A JP2008058813 A JP 2008058813A
Authority
JP
Japan
Prior art keywords
speech
candidate
voice
user
voice response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006237980A
Other languages
Japanese (ja)
Other versions
JP4666648B2 (en
Inventor
Masashi Satomura
昌史 里村
Original Assignee
Honda Motor Co Ltd
本田技研工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, 本田技研工業株式会社 filed Critical Honda Motor Co Ltd
Priority to JP2006237980A priority Critical patent/JP4666648B2/en
Publication of JP2008058813A publication Critical patent/JP2008058813A/en
Application granted granted Critical
Publication of JP4666648B2 publication Critical patent/JP4666648B2/en
Application status is Expired - Fee Related legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a system or the like which recognizes a voice candidate with high likelihood in agreement with utterance of a user without placing too much emphasis on a specific category, and responds to results of the selection of the voice candidate by the user.
SOLUTION: Using the voice response system 10, two or more voice candidates belonging to different domains are recognized and output based on input voice to a microphone 2. Thus, such a situation as two or more voice candidates belonging to categories deviated from the utterance of the user are output with overemphasis can be avoided, and a voice candidate corresponding to the user's utterance can be included in the two or more voice candidates with high probability. Then, one voice candidate which is selected by the user from among the two or more voice candidates and is in agreement with the utterance of the user is recognized with high probability, and a response in agreement with the user's intention becomes possible.
COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は使用者から発せられた音声を認識してこれに応答するシステム等に関する。 The present invention relates to a system such as that responds to recognize the voice generated by a user.

使用者から発せられた音声認識の便宜を図るため、入力音声に基づいて複数の音声候補を認識し、当該複数の音声候補の中から使用者により選択された1つの音声候補を当該使用者から発せられた音声として認識する手法が提案されている(たとえば、特許文献1参照)。 For the convenience of the speech recognition emitted from the user to recognize a plurality of voice candidates on the basis of the input voice, one voice candidates selected by the user from among the plurality of voice candidates from the user method of recognizing a sound produced has been proposed (e.g., see Patent Document 1).
特開昭63−027898号公報 JP-A-63-027898 JP

しかし、入力音声と、複数のカテゴリに区分された複数の辞書のそれぞれに登録されている音声との音響的な近さに基づいて音声候補が認識される場合、使用者の発話から乖離したカテゴリに属する音声候補が偏重的に認識されてしまう可能性があった。 However, if the speech candidate is recognized based input speech, the acoustic proximity to the speech registered in each of the plurality of dictionary is divided into a plurality of categories, it deviates from the utterance of the user category voice candidates belonging to there is a possibility that recognized unbalance manner. このため、使用者の発話に合致する音声候補が認識されず、当該使用者の発話の正しい認識が困難となる場合があった。 Therefore, there are cases where voice candidates that match the utterance of the user is not recognized, correct recognition of the utterance of the user is difficult. また、多数の音声候補が提示されるとその中から使用者が先の発話に合致した音声候補を探すのは煩わしさを伴う可能性が高くなる。 Also, it may involve the troublesome to find voice candidates the user matches the previous utterance among them a large number of voice candidates are presented increases.

そこで、本発明は、使用者の発話に合致する蓋然性の高い音声候補を特定のカテゴリに偏重することなく認識し、使用者による当該音声候補の選択結果に応答するシステム、および当該応答機能をコンピュータに付与するプログラムを提供することを解決課題とする。 The present invention recognizes without unbalance the probable sound candidates that match the utterance of a user to a particular category, a system that responds to the sound candidate selection result by the user, and the response function computer and solve object of the present invention to provide a program to be given to.

前記課題を解決するための第1発明の音声応答システムは、音声入力手段に入力された音声に基づき、1次ドメイン群に含まれる第1ドメインに属する音声候補を第1音声候補として認識する第1音声認識部と、該音声入力手段に入力された該音声に基づき、該第1ドメインを含まない2次ドメイン群に含まれる第2ドメインに属する音声候補を第2音声候補として認識する第2音声認識部と、該第1音声認識部により認識された第1音声候補と、該第2音声認識部により認識された第2音声候補とを出力する出力部と、該出力部により出力された該第1音声候補および該第2音声候補のうち使用者により選択された音声候補を認識する確認部とを備えていることを特徴とする。 Voice response system of the first invention for solving the above problems, based on the speech input to the speech input means, the recognizing the speech candidate belonging to the first domain contained in the primary domain group as the first speech candidate 1 a speech recognition unit, voice input means on the basis of the speech input to the second recognizes the speech candidate as a second speech candidate belonging to a second domain that is included in the secondary domain group not including the first domain a voice recognition unit, a first sound candidate recognized by the first speech recognition section, and a second output unit for outputting a sound candidate recognized by the second speech recognition unit, which is outputted by the output unit characterized in that it comprises a recognizing confirmation unit the speech candidate selected by the user among the first speech candidate and the second speech candidates.

第1発明の音声応答システムによれば、音声入力手段への入力音声に基づき、異なるドメインに属する複数の音声候補が認識され、かつ、出力される。 According to the voice response system of the first invention, based on the input voice to the voice input means, a plurality of voice candidates in different domains can be recognized, and is output. 「ドメイン」とは音声候補のカテゴリに応じた分類を意味する。 It refers to the classification according to the category of voice candidates "domain". これにより、当該使用者の発話から乖離したカテゴリに属する複数の音声候補が偏重的に出力される事態が回避されうる。 Thus, a situation in which a plurality of voice candidates belonging to the category which deviates from the utterance of the user is output unbalance manner can be avoided. また、出力される複数の音声候補に使用者の発話に該当する音声候補を高い確率で含ませることができる。 Further, a sound candidate corresponding to the utterance of a user to a plurality of voice candidates which are output can be included with a high probability. そして、当該複数の音声候補の中から使用者により選択された、当該使用者の発話に合致した1つの音声候補が高い確率で認識され、使用者の意図に沿った形での応答が可能となる。 Then, selected by the user from among the plurality of voice candidates one voice candidates that match the utterance of the user is recognized with high probability, and can response in line with the user's intention Become. すなわち、使用者の発話に合致する蓋然性の高い音声候補が特定のカテゴリに偏重することなく認識され、使用者による当該音声候補の選択結果に応答することが可能となる。 That, is recognized without high voice candidates probable that matches the utterance of the user is biased towards a particular category, it becomes possible to respond to the sound candidate selection result by the user.

また、第2発明の音声応答システムは、第1発明の音声応答システムにおいて、前記第2音声認識部が前記第2音声候補のスコアを評価し、前記出力部が、該第2音声認識部により評価されたスコアが所定のスコア以上であることを要件として該第2音声候補を出力することを特徴とする。 The voice response system of the second invention, the voice response system of the first invention, the second speech recognition section evaluates the scores of the second speech candidate, the output unit, the second speech recognition section evaluated scores and outputs the second speech candidate condition that is greater than or equal to a certain score.
第2発明の音声応答システムによれば、第2音声候補のスコア(尤度)が所定のスコア以上であることを要件として当該第2音声候補が出力される。 According to the voice response system of the second invention, the score of the second voice candidates (likelihood) of the second sound candidate is outputted as the requirement that at least a predetermined score. 音声候補の「スコア」とは、当該音声候補が音響的観点や言語的観点等のさまざまな観点から入力音声に該当するもっともらしさ(尤度、確信度)を表す指数を意味する。 The "score" of the sound candidate, means a index indicating the likelihood that the speech candidate corresponds to the input speech from various viewpoints, such as the acoustic viewpoint and linguistic point of view (likelihood, confidence). これにより、入力音声に該当する可能性が著しく低い音声候補までもが出力される事態が回避される。 Thus, a situation which also is output to the likelihood is extremely low sound candidates corresponding to the input speech is avoided.

さらに、第3発明の音声応答システムは、第1発明の音声応答システムにおいて、前記確認部により認識された音声候補に基づき、機器の動作を制御する機器制御部とをさらに備えていることを特徴とする。 Further, the voice response system of the third invention, characterized in that the voice response system of the first aspect of the invention, based on the recognized voice candidate by the confirmation section further includes a device control unit for controlling the operation of the apparatus to.

第3発明の音声応答システムによれば、ユーザの発話に合致する音声候補に基づいて、当該ユーザの意思や希望に沿った形で機器が制御されうる。 According to the voice response system of the third invention, based on the speech candidate that matches the user's speech equipment it can be controlled in line with the intention or desire of the user.

また、第4発明の音声応答システムは、第3発明の音声応答システムにおいて、前記第2音声認識部が前記第2音声候補のスコアを評価し、前記機器制御部が該第2音声認識部により評価されたスコアが所定のスコア未満である場合、前記第1音声候補に基づいて前記機器の動作を制御することを特徴とする。 The voice response system of the fourth invention, in the voice response system of the third invention, the second speech recognition section evaluates the scores of the second speech candidate, the device control unit by the second speech recognition section If the evaluation scores is less than a predetermined score, and controls the operation of the device based on the first sound candidate.

第4発明の音声応答システムによれば、ユーザの発話に該当する可能性が極めて低い音声候補にしたがって機器が制御される事態が確実に回避されうる。 According to the voice response system of the fourth aspect of the present invention, a situation that may be relevant to the speech of the user equipment is controlled in accordance with a very low sound candidate may be reliably avoided.

前記課題を解決するための第5発明の音声応答プログラムは、音声入力手段に入力された音声に基づき1次ドメイン群に含まれる第1ドメインに属する音声候補を第1音声候補として認識する第1音声認識機能と、該音声入力手段に入力された該音声に基づき該第1ドメインを含まない2次ドメイン群に含まれる第2ドメインに属する音声候補を第2音声候補として認識する第2音声認識機能と、該第1音声認識機能により認識された第1音声候補と、該第2音声認識機能により認識された第2音声候補とを該使用者に知らせる出力機能と、該出力機能により出力された該第1音声候補および該第2音声候補のうち使用者により選択された音声候補を認識する確認機能とをコンピュータに付与することを特徴とする。 Voice response program of the fifth invention for solving the above problems, first recognizes the speech candidate belonging to the first domain contained in the primary domain groups based on the speech input to the speech input means as a first speech candidate a voice recognition function, a second speech recognition for recognizing speech candidate belonging to the second domain contained in the secondary domain group not including the first domain based on the speech input to the speech input means as a second speech candidate function and, first a speech candidate recognized by the first speech recognition function, an output function of informing the said use's a second speech candidate recognized by the second speech recognition function, is output by the output function first, characterized in that imparted to the audio candidate and the second computer and recognizing confirmation function speech candidate selected by the user among the voice candidates.

第5発明の音声応答プログラムによれば、使用者の発話に合致する蓋然性の高い音声候補を特定のカテゴリに偏重することなく認識し、使用者による当該音声候補の選択結果に応答する機能が任意のコンピュータに付与されうる。 According to the voice response program of the fifth invention, the ability to recognize without unbalance the probable sound candidates that match the utterance of a user to a particular category, responsive to the speech candidate selection result by the user any It can be applied to the computer.

本発明の音声応答システム等の実施形態について図面を用いて説明する。 It will be described with reference to the accompanying drawings embodiments such as voice response system of the present invention.

まず、本発明の音声応答システムの構成について図1〜図2を用いて説明する。 First, the structure of the voice response system of the present invention will be described with reference to FIGS. 1-2.
音声応答システム10はA/D変換回路、マイクロコンピュータ(CPU、RAM、ROM、I/O等により構成されている。)等を含む電子回路により構成され、マイク2の出力(アナログ信号)がA/D変換回路を介してデジタル信号に変換されて入力される。 Voice response system 10 is A / D conversion circuit, a microcomputer (CPU, RAM, ROM, and is constituted by I / O or the like.) Electronic circuits and the like, the output of the microphone 2 (analog signal) A / via D conversion circuit is input is converted into a digital signal. そして、音声応答システム10は、入力されたデータに基づいて、運転者から入力された発話を認識する処理や、その認識結果に基づいて、スピーカ4やディスプレイ5を介して運転者との対話や運転者への情報提示を行う処理や、機器61〜63を制御する処理等を実行する。 The voice response system 10, based on the input data, the process of recognizing and speech input from the driver, on the basis of the recognition result, Ya interaction with the driver via the speaker 4 and the display 5 processing and performing information presentation to the driver, executes a process for controlling the equipment 61 to 63. これらの処理は、音声応答システム10のメモリに予め実装されたプログラムを音声応答システム10により実行することにより実現される。 These processes are realized by executing a previously implemented program into the memory of the voice response system 10 by voice response system 10. なお、当該ソフトウェアはCD−ROM等の記録媒体を介してメモリに格納されてもよく、外部のサーバからネットワークや人工衛星を介して配信または放送され、車両1に搭載された通信機器により受信された上でメモリに格納されてもよい。 Incidentally, the software may be stored in the memory via a recording medium such as a CD-ROM, is delivered or broadcast from an external server via a network or an artificial satellite are received by a communication device mounted on the vehicle 1 it may be stored in memory on the.

音声応答システム10にはマイク(音声入力手段)2と、車両状態検出部3と、スピーカ4と、ディスプレイ5と、複数の機器としてのオーディオ機器61、ナビゲーションシステム62、およびエアコンディショナ63とが接続されている。 A microphone (sound input means) 2 is the voice response system 10, a vehicle state detector 3, a speaker 4, a display 5, audio equipment 61 as a plurality of devices, a navigation system 62, and the air conditioner 63 It is connected.

マイク2は車内の所定箇所に設置され、車両1の運転者等の使用者の音声が入力される。 The microphone 2 is installed in the vehicle in a predetermined position, the user's voice of the driver of the vehicle 1 are inputted. マイク2は、たとえばトークスイッチにより音声の入力開始が指令されると、入力される音声を運転者の発話として取得する。 Microphone 2, for example, when the voice input start is instructed by the talk switch, to obtain a sound input as spoken by the driver. トークスイッチは使用者により操作されるON・OFFスイッチであり、押下してON操作されることによって音声の入力開始が指令される。 Talk switch is ON · OFF switch operated by the user, the speech input start is commanded by being turned ON by pressing.

車両状態検出部3は車両1の状態を検出するセンサ等である。 Vehicle state detecting unit 3 is a sensor for detecting the state of the vehicle 1. 車両1の状態とは、たとえば車両1の速度や加減速等の走行状態、車両1の位置や走行道路等の走行環境情報、車両1に装備された機器(ワイパー、ウィンカー、オーディオ機器61、ナビゲーションシステム62等)の動作状態、車両1の内部温度等の状態を意味する。 The state of the vehicle 1, for example, the running state of the speed and acceleration and deceleration such as a vehicle 1, the traveling environment information, such as location and vehicle travel road 1, equipped with a device (wiper vehicle 1, turn signal, audio equipment 61, navigation the operating state of the system 62, etc.), refers to the state of the internal temperature of the vehicle 1. 車両1の走行状態を検出するセンサとしては、車両1の走行速度(車速)を検出する車速センサ、車両1のヨーレートを検出するヨーレートセンサ、車両1のブレーキ操作(ブレーキペダルが操作されているか否か)を検出するブレーキセンサ等が挙げられる。 Whether the sensor for detecting the traveling state of the vehicle 1, a vehicle speed sensor for detecting a running speed of the vehicle 1 (vehicle speed), a yaw rate sensor for detecting a yaw rate of the vehicle 1, the braking operation of the vehicle 1 (the brake pedal is being operated or) a brake sensor, and the like to detect the. さらに、車両1の状態として車両1の運転者の状態(運転者の手掌部の発汗、運転負荷等)が検出されてもよい。 Further, the driver of the state of the vehicle 1 as the state of the vehicle 1 (driver's palm sweating, operating load and the like) may be detected.

スピーカ4は使用者への応答(音声ガイド)を出力する。 Speaker 4 outputs a response to the user (voice guide). なお、スピーカ4としてオーディオ機器61が有するスピーカが用いられてもよい。 It is also a speaker is used for audio equipment 61 has a speaker 4.

ディスプレイ5にはフロントウィンドウに画像等の情報を表示するHUD(ヘッドアップディスプレイ)、車速等の走行状態を表示するメータに一体的に設けられたディスプレイ、およびナビゲーションシステム62が有するディスプレイ等が含まれる。 Includes a display such as a front HUD (head-up display) which displays information such as an image in a window, the display is provided integrally with the meter to display the running status of the vehicle speed, and a navigation system 62 has the display 5 . なお、ナビゲーションシステム62のディスプレイは、タッチスイッチが組み込まれたタッチパネルとなっている。 Incidentally, the display of the navigation system 62 has a touch panel touch switches are incorporated.

複数の機器61〜63のそれぞれについて、制御可能な構成要素(デバイス,コンテンツ等)、機能、動作等があらかじめ定められている。 For each of a plurality of devices 61 to 63, controllable component (devices, content, etc.), functions, operation, etc. is predetermined.

オーディオ機器61のデバイスには「CD」「MP3」「ラジオ」「スピーカ」等が含まれている。 The device of the audio equipment 61 are included such as "CD", "MP3", "radio", "speaker". また、オーディオ機器61の機能には「音量」等の調節が含まれている。 It has also included a regulation such as "volume" is the function of the audio equipment 61. さらに、オーディオ機器61の動作には「変更」「オン」「オフ」等が含まれている。 Furthermore, the operation of the audio device 61 are included, such as "change", "on" or "off". また「CD」「MP3」の動作には「再生」「停止」等が含まれている。 In addition to the operation of the "CD," "MP3" are included, such as "Play", "Stop". さらに「ラジオ」の機能には「選局」等が含まれている。 Are included such as "tuning" is to further functions of the "radio". また「音量」の動作として「上げる」「下げる」等が含まれている。 Also it is included such as "increase" as the operation of the "volume", "lower".

ナビゲーションシステム62のコンテンツには「画面表示」「経路誘導」「POI(Point of Interest)検索」等が含まれている。 The content of the navigation system 62 are included, such as "screen display", "route guidance", "POI (Point of Interest) search". さらに「画面表示」の動作には「変更」「拡大」「縮小」等が含まれている。 It is included such as "change", "expansion", "reduced" to the operation of further "screen display". なお「経路誘導」は音声ガイド等により目的地へ誘導する機能であり、「POI検索」はたとえばレストラン、ホテル等の目的地を検索する機能である。 The "route guidance" is a function of inducing to the destination by voice guide, etc., "POI search" is, for example, the ability to search restaurants, a destination such as hotels.

エアコンディショナ63の機能には「風量」「設定温度」等の調節が含まれている。 The function of the air conditioner 63 contains a regulation such as "air volume", "set temperature". また、エアコンディショナ63の動作には「オン」「オフ」等が含まれている。 In addition, it is included such as "on" and "off" on the operation of the air conditioner 63. さらに「風量」「設定温度」の動作には「変更」「上げる」「下げる」等が含まれている。 It is included and "Change", "raising", "lowering" the behavior of the more "air volume", "set temperature".

当該機器61〜63は、制御対象となる機能等が特定されることにより制御されうる。 The equipment 61 to 63, functions and the like to be controlled can be controlled by being identified. 制御対象となる各機器61〜63のデバイス、コンテンツ、機能は複数のドメインに分類されている。 Each device 61 to 63 of the device to be controlled, the content, functions are classified into a plurality of domains.

音声応答システム10は音声認識部11と、構文解析部12と、シナリオ制御部13と、音声合成部14とを備えている。 Voice response system 10 includes a voice recognition unit 11, a parser 12, a scenario control unit 13, and a speech synthesis unit 14. 音声認識部11、構文解析部12およびシナリオ制御部13が本発明の「第1音声認識部」および「第2音声認識部」を構成する。 Speech recognition unit 11, the parsing unit 12 and the scenario control unit 13 constitutes a "first voice recognition unit" and the "second speech recognition unit" of the present invention. シナリオ制御部13および音声合成部14が本発明の「出力部」を構成する。 Scenario control unit 13 and the voice synthesizing unit 14 constitutes the "output part" of the present invention. また、シナリオ制御部13が本発明の「確認部」および「機器制御部」のそれぞれを構成する。 Also, scenario control unit 13 constituting each of the "confirmation unit" and "device control unit" of the present invention.

第1音声認識部はマイク2に入力された音声に基づき、1次ドメイン群に含まれる第1ドメインに属する音声候補を「第1音声候補」として認識する。 First speech recognition unit recognizes, based on the voice input to the microphone 2, the speech candidate belonging to the first domain contained in the primary domain group as the "first speech candidate".

第2音声認識部はマイク2に入力された音声に基づき、第1ドメインを含まない2次ドメイン群に含まれる第2ドメインに属する音声候補を「第2音声候補」として認識する。 The second speech recognition unit recognizes, based on the voice input to the microphone 2, the speech candidate belonging to the second domain contained in the secondary domain group not including the first domain as "second audio candidate".

出力部は第1音声認識部により認識された第1音声候補と、第2音声認識部により認識された第2音声候補とをディスプレイ5に表示等する。 The output unit displays, such as the first and the audio candidate recognized by the first speech recognition section, and a second audio candidate recognized by the second speech recognition unit on the display 5.

確認部は出力部により出力された第1音声候補および第2音声候補のうち使用者により選択された音声候補を認識する。 Confirmation section recognizes the speech candidate selected by the user of the first voice candidate and the second speech candidate outputted by the output unit.

機器制御部は確認部により認識された当該選択音声候補等に基づき、機器61〜63の動作を制御する。 Device control unit is based on the selected sound candidate or the like which is recognized by the check unit, controls the operation of the equipment 61 to 63.

音声認識部11はマイク2への入力音声に応じた波形データを周波数分析して特徴ベクトルを抽出し、当該特徴ベクトルに基づいて入力音声を認識し、単語列で表現されたテキストとして出力する「音声認識処理」を実行する。 Speech recognition unit 11 the feature vector extracted by the frequency analysis of the waveform data corresponding to the input speech to the microphone 2, recognizes the input speech based on the feature vector is output as text represented in a word string " to perform the voice recognition process. " また、音声認識部11は言語モデル112および固有名詞辞書114のうち、シナリオ制御部13により特定されたドメインに応じたドメイン群のそれぞれに分類されたデータのみを用いて音声認識処理を実行する。 Also, among the voice recognition unit 11 language model 112 and the proper noun dictionary 114, to perform the speech recognition process by using only data classified into each domain groups in accordance with the specified domain by scenario control unit 13. 音声認識処理は、次に説明するような確率統計的な手法を用いて入力音声の音響的特徴および言語的特徴を総合的に判断することにより実行される。 Speech recognition process is performed by comprehensively determining acoustic features and linguistic characteristics of the input speech using the probability statistical method, such as described below.

すなわち、音声認識部11は音響モデル111を用いて、抽出された特徴ベクトルに応じた発音データの尤度(以下、適宜「音響スコア」という。)を評価し、当該音響スコアに基づいて発音データを特定する。 That is, the voice recognition unit 11 by using the acoustic model 111, the likelihood of sound data corresponding to the extracted feature vector (hereinafter, as "acoustic score" referred.) Is evaluated and sound data based on the acoustic score to identify. また、音声認識部11は言語モデル112および固有名詞辞書114を用いて当該発音データに応じた単語列で表現されたテキストの尤度(以下、適宜「言語スコア」という。)を評価し、当該言語スコアに基づいてテキストを特定する。 Further, the voice recognition unit 11 language model 112 and using the proper noun dictionary 114 of text represented in a word string corresponding to the sound data likelihood (hereinafter, appropriately referred to as "language score".) Evaluated, the to identify the text based on the language score. さらに、音声認識部11は特定されたすべてのテキストについて、音響スコアと言語スコアとの重み付き和として音声認識の確信度(以下、適宜「音声認識スコア」という。)を評価し、音声認識スコアが所定の条件を満たすテキストを、認識されたテキスト(Recognized Text)として出力する。 Moreover, for all of the text speech recognition section 11 specified, confidence of speech recognition as a weighted sum of the acoustic score and the language score (hereinafter, appropriately referred to as "voice recognition score".) To evaluate the speech recognition score There outputs a predetermined condition is satisfied text, as recognized text (recognized text).

構文解析部12は音声認識部11により認識されたテキストから構文モデル122および固有名詞辞書124を用いて、入力音声の意味を理解する「構文解析処理」を実行する。 The syntax analyzer 12 using the syntax model 122 and the proper noun dictionary 124 from the recognized text by the speech recognition unit 11 executes the "parsing process" to understand the meaning of the input voice. 構文解析処理は次に説明するような確率統計的な手法を用いて、音声認識部11により認識されたテキストにおける単語間の関係または構文を解析することにより実行される。 Parsing process using stochastic methods, such as described below, is performed by analyzing the relationship or syntax between words in the recognized text by the speech recognition unit 11.

すなわち、構文解析部12は当該認識されたテキストの尤度(以下、適宜「構文解析スコア」という。)を評価し、かつ、意味に対応するクラスに分類されたテキストを特定する。 In other words, the syntax analyzer 12 the recognized text likelihood (hereinafter, appropriately referred to as "parsing score".) To evaluate, and to identify the classified text class corresponding to the mean. また、構文解析部12は、構文解析スコアが所定の条件を満たすようなクラスに分類されたテキスト(Categorized Text)を、入力音声の認識結果として構文解析スコアとともに出力する。 Further, the parsing unit 12, the text parsing scores were classified into classes such as to satisfy the predetermined condition (Categorized Text), and outputs with parsing score as a recognition result of the input speech. テキストの先頭部分は、制御対象である機能の分類を表すドメインに相当する。 Beginning of the text corresponds to the domain representing the classification of the function to be controlled. たとえば、認識されたテキストが「地図回転」である場合、クラス分類されたテキストは{navigation_mapcontrol_rotation}となり、制御対象はnavigationとなる。 For example, if the recognized text is "Map rotation", classification text is {navigation_mapcontrol_rotation}, and the controlled object becomes navigation. なお、クラス分類されたテキストの先頭部分がドメインとして定義されるほか、これとは異なる形で当該テキストの一部または全部がドメインとして定義されていてもよい。 Incidentally, in addition to the top portion of the classification text is defined as a domain may be defined as a part or all of the domain of the text differently from this. たとえば、クラス分類されたテキスト{navigation_mapcontrol_rotation}のうち「navigation_map control」がドメインとされてもよい。 For example, "Navigation_map Control" may be the domain of the classification text {navigation_mapcontrol_rotation}.

シナリオ制御部13は構文解析部12から出力される認識結果と、車両状態検出部3から取得される車両1の状態とに基づき、シナリオデータベース132に保存されているデータを用いて、使用者に対する応答出力や機器制御のシナリオを特定する。 A recognition result output from the scenario control unit 13 the syntax analyzer 12, based on the state of the vehicle 1 obtained from the vehicle state detection unit 3, using the data stored in the scenario database 132, to the user identifying the response output and device control scenario. シナリオデータベース132には、応答出力や機器の動作制御のための複数のシナリオが、音声認識結果や車両状態の条件(ルール)とともにあらかじめ保存されている。 The scenario database 132, a plurality of scenarios for the operation control of the response output and equipment is previously stored with the voice recognition result and the vehicle state condition (rule). そして、シナリオ制御部13は特定されたシナリオにしたがって、音声や画像表示による応答を制御する処理や、機器を制御する処理を実行する。 The scenario control unit 13 according to a specific scenario, to execute processing for controlling the voice response or an image display, the process of controlling the device. シナリオ制御部13は、たとえば音声による応答では、出力する応答の内容(運転者の次の発話を促すための応答文や、操作の完了等を使用者に報知するための応答文)や、応答を出力する際の速度や音量を特定する。 Scenario control unit 13, in response for example by voice, the contents of the response to be output and (or response sentence for prompting the next utterance of the driver, a completion like response sentence for informing the user of operation), the response to identify the speed and volume of when outputting. シナリオ制御部13は構文解析部12により認識された発話の意味に基づき、制御対象となる機器や、当該機器に実行させる情報処理のカテゴリを特定するドメインを特定する。 Scenario control unit 13 based on the meaning of the utterance recognized by the parsing unit 12, and equipment to be controlled, identifies the domain to identify the category of information processing to be executed on the device.

音声合成部14はシナリオ制御部13で特定された応答文に応じて、音素モデル142を用いてTTS(Text to Speech)等の処理によって音声を合成し、音声を示す波形データとして出力する。 Speech synthesizer 14 according to the response sentence specified by the scenario control unit 13 synthesizes speech by processing such as TTS (Text to Speech) using phoneme models 142, and outputs the waveform data representing the voice. 音声合成部14は、たとえばシナリオ制御部13で特定された応答文のテキストを音声出力に適した表現に正規化し、当該正規化テキストの各単語を発音データに変換する。 Speech synthesis unit 14, for example a text of the identified response sentence normalized to representation suitable for audio output by the scenario control unit 13 converts each word of the normalization text sound data. そして、音声合成部14は、音素モデル142を用いて発音記号から特徴ベクトルを特定し、この特徴ベクトルにフィルタ処理を施して波形データに変換する。 Then, the speech synthesis unit 14 identifies a feature vector from the pronunciation symbols using phoneme models 142, and converts the waveform data by filtering this feature vector. この波形データは、スピーカ4から音声として出力される。 The waveform data is output as sound from the speaker 4.

音響モデル111、言語モデル112、固有名詞辞書114、構文モデル122、固有名詞辞書124、シナリオデータベース132および音素モデル142のそれぞれは、データが格納または記録されているCD−ROM、DVD、HDD等の記録媒体(データベース)である。 Acoustic model 111, language model 112, proper noun dictionaries 114, syntax model 122, each of the proper noun dictionary 124, the scenario database 132 and the phoneme model 142, CD-ROM in which the data is stored or recorded, DVD, a HDD, etc. which is a recording medium (database).

音響モデル(Acoustic Model)111には、認識単位(音素、形態素、単語等)毎に用意された複数のHMM(Hidden Markov Model(隠れマルコフモデル))等、特徴ベクトルと発音データとの確率的な対応を示すデータが格納されている。 The acoustic model (Acoustic Model) 111, recognition unit (phoneme, morpheme, word, etc.) of a plurality prepared for each HMM (Hidden Markov Model (HMM)), or the like, probabilistic between the feature vector and pronunciation data data indicating the correspondence is stored. HMMは音声が定常信号源(状態)の連結により表現され、時系列が状態から状態への遷移確率によって表現される統計的信号源モデルである。 HMM speech is represented by a connection of the constant signal source (state), the time series are statistically source model represented by a transition probability to the state from the state. HMMにより、時系列で変動する音声の音響的な特徴が簡易な確率モデルによって表現される。 The HMM, the acoustic characteristics of the sound that varies in a time sequence is represented by a simple probabilistic model. HMMの遷移確率等のパラメータは、対応する学習用の音声データを与えて学習させることによりあらかじめ特定されている。 Parameters such as the transition probabilities of the HMM is pre-specified by learning giving audio data for the corresponding learning. また、音素モデル142にも、発音データから特徴ベクトルを特定するための、音響モデル111と同様のHMMが格納されている。 Also, the phoneme model 142, for identifying the feature vector from the sound data, the same HMM acoustic model 111 is stored.

言語モデル(Language Model)112には、認識対象である単語の出現確率や接続確率を示すデータが、この単語の発音データおよびテキストとともに格納されている。 The language model (Language Model) 112, data indicating the appearance probability and connection probability of a word to be recognized is stored with sound data and text of this word. 認識対象である単語とは、対象を制御するための発話で使用される可能性のある単語として予め定められるものである。 The recognition target words, are those that are predefined as words that may be used in the speech for controlling an object. 単語の出現確率や接続確率等のデータは、大量の学習テキストコーパスを解析することにより統計的に作成される。 Data such as the probability of occurrence and the connection probability of a word is created statistically by analyzing a large amount of learning text corpus. また、単語の出現確率は、たとえば、学習テキストコーパスにおけるその単語の出現頻度等に基づいて算出する。 In addition, the probability of occurrence of a word, for example, is calculated on the basis of the frequency of occurrence of the word, such as in the learning text corpus.

言語モデル112としては1つの単語の出現確率によって表現されるユニグラム(Uni−gram,N=1)、および2つの単語の列の生起確率(先行する1単語についての条件付き出現確率)によって表現されるバイグラム(Bi−gram,N=2)等、特定のN個の単語が連続して出現する確率により表現されるN−gramの言語モデルが用いられている。 Unigram (Uni-gram, N = 1) as the language model 112 represented by one occurrence probability of the word, and is represented by the probability of occurrence of two words of column (conditional occurrence probability for one word preceding) that bigram (Bi-gram, N = 2) or the like, the language model of N-gram represented by the particular N-number of the probability that the word appears in succession have been used.

構文モデル(Parser Model)122には、認識対象である単語の出現確率や接続確率を示すデータが、この単語のテキストおよびクラスとともに格納されている。 Syntax model (Parser Model) 122 is data indicating the appearance probability and connection probability of a word to be recognized is stored with the text and class of this word. 構文モデル122としてはユニグラム、バイグラム、および3つの単語の列の生起確率(先行する2単語についての条件付き出現確率)によって表現されるトリグラム(Tri−gram,N=3)等、構文モデル122としては言語モデル112と同様にN−gramの言語モデルが用いられている。 The parser model 122 unigram, bigram, and three of the occurrence probability of a word column trigrams (Tri-gram, N = 3) represented by (conditional probability of occurrence of the two words preceding) such as syntactic model 122 the language model N-gram as well as the language model 112 is used.

固有名詞辞書114、124には、人名、地名、ラジオの放送局の周波数等の、認識対象となる単語のうちの固有名詞の発音データおよびテキストが登録されている。 The proper noun dictionary 114 and 124, personal names, place names, such as the frequency of the radio broadcasting stations, pronunciation data and the text of the proper noun of the word to be recognized is registered. 当該データは、図2に示されように<radio station><AM>といったタグが付されて記録されている。 The data is, Ni will be shown in FIG. 2 is a tag such <radio station> <AM> are recorded are assigned. このタグの内容が固有名詞辞書114、124に登録された各固有名詞のクラスを示す。 The contents of this tag indicates the class of each proper noun registered in the proper noun dictionary 114 and 124.

言語モデル112および構文モデル122のそれぞれは、たとえば図2に示されている複数のドメイン、すなわちD1={audio}、D2={climate}、D3={passenger}、D4={POI}、D5={ambiguous}、D6={navigation}、D7={clock}およびD8={help}に分類されて作成されている。 Multiple domains respectively, shown in FIG. 2, for example of the language model 112 and parser model 122, i.e. D1 = {audio}, D2 = {climate}, D3 = {passenger}, D4 = {POI}, D5 = {ambiguous}, D6 = {navigation}, has been created are classified in D7 = {clock} and D8 = {help}. D1は制御対象がオーディオ機器61であることを示している。 D1 indicates that the control object is an audio device 61. D2は制御対象がエアコンディショナ63であることを示している。 D2 indicates that the control object is an air conditioner 63. D3は制御対象が助手席のエアコンディショナ63であることを示している。 D3 indicates that the control object is the air conditioner 63 of the passenger seat. D4は制御対象がナビゲーションシステム62のPOI検索機能であることを示している。 D4 indicates that the control object is a POI search function of the navigation system 62. D5は制御対象が不明であることを示している。 D5 indicates that the control object is unknown. D6は制御対象がナビゲーションシステム62の経路探索や地図操作等の機能であることを示している。 D6 indicates that the control object is a function such as route search and map operation of the navigation system 62. D7は制御対象が時計機能であることを示している。 D7 controlled object indicates that the clock function. D8は機器61〜63や音声応答システムの操作方法を知るためのヘルプ機能であることを示している。 D8 indicates that a help function for learning how to operate the equipment 61 to 63 and voice response systems.

続いて、前記構成の音声応答システム10の機能について図3〜図7を用いて説明する。 Next, it will be described with reference to FIGS. 3 to 7 for a voice response system 10 of the configuration.

車両1の運転者等の使用者により、トークスイッチがON操作されて発話の入力開始が指示された上で、マイク2に当該使用者の「地図回転」等の音声が入力される(図3/S002)。 By the user of the driver of the vehicle 1, talk switch is on is turned ON is input start speech is instructed, the sound of the "map rotation" or the like of the user is input to the microphone 2 (3 / S002).

また、第1音声認識部によって1次ドメイン群が有効化され、当該1次ドメイン群に第1ドメイン{navigation}に属する第1音声候補L 1が認識される(図3/S004)。 Also, the primary domain group by the first speech recognition unit is activated, the first audio candidate L 1 belonging to the first domain {navigation} to the primary domain group is recognized (Fig. 3 / S004). これにより、図4(a)に示されているドメイン群D1〜D8または図4(b)に示されているドメイン群D4〜D8が1次ドメイン群として有効化される。 Thus, the domain group D4~D8 shown in FIG. 4 domain groups shown in (a) D1 to D8 or FIG. 4 (b) is activated as the primary domain group. そして、1次ドメイン群に含まれる第1ドメインD4={navigation}に含まれる音声候補「地図回転」が第1音声候補L 1として認識される。 Then, the speech candidate "map rotation" included in the first domain D4 = {navigation} included in the primary domain group is recognized first as a sound candidate L 1. 第1音声候補L 1が属するドメインはシナリオ制御部13により決定される。 Domain first sound candidate L 1 belongs is determined by the scenario control unit 13. 第1音声候補L 1の認識処理の詳細については後述する。 For details of the first recognition of the speech candidate L 1 will be described later.

さらに、第1音声認識部により第1音声候補L 1のスコア(音声認識スコア、構文解析スコア等が含まれる。)sc(L 1 )が第1閾値θ 1未満であるか否かが判定される(図3/S006)。 Furthermore, the first score of the speech candidate L 1 by the first speech recognition unit (speech recognition score. Include parsing score, etc.) sc (L 1) whether a first threshold value θ less than 1 is determined that (Fig. 3 / S006). 第1音声認識部による当該判定結果が肯定的である場合(図3/S006‥YES)、第2音声認識部により、第1音声候補L 1が属するドメインとしてシナリオ制御部13により決定された第1ドメインが含まれない、2次ドメイン群が有効化され、当該2次ドメイン群に含まれる第2ドメインに属する第2音声候補L 2が認識される(図3/S008)。 If the determination result by the first speech recognition unit is affirmative (FIG. 3 / S006 ‥ YES), the second speech recognition section, a determined by the scenario control unit 13 as the domain first sound candidate L 1 belongs does not contain I domain, secondary domain group is activated, the second audio candidate L 2 belonging to the second domain included in the secondary domain group is recognized (Fig. 3 / S008). これにより、図4(a)(b)に示されているドメイン群D1〜D3、D5〜D8が2次ドメイン群として有効化される。 Thus, FIG. 4 (a) (b) domains are shown in groups D1 to D3, D5-D8 are enabled as a secondary domain group. そして、2次ドメイン群に含まれる第2ドメインD5={POI}に含まれる音声候補「ラーメン食いたい」が第2音声候補L 2として認識される。 The audio candidate "should eat pizza" in the second domain D5 = {POI} contained in the secondary domain group is recognized as a second speech candidate L 2. 第2音声候補L 2の認識処理の詳細については後述する。 For details of the second recognition process of the speech candidate L 2 will be described later.

さらに、第2音声認識部により第2音声候補L 2のスコア(音声認識スコア、構文解析スコア等が含まれる。)sc(L 2 )が第2閾値θ 2以上であるか否かが判定される(図3/S010)。 Further, the second score speech candidate L 2 by the second speech recognition unit (speech recognition score. Include parsing score, etc.) whether sc (L 2) is the second threshold value theta 2 or more is determined that (Fig. 3 / S010). 第2音声認識部による当該判定結果が肯定的である場合(図3/S010‥YES)、シナリオ制御部13により第1音声候補L 1および第2音声候補L 2がディスプレイ5に表示され、かつ、第1音声候補L 1または第2音声候補L 2の当否確認を使用者に促す音声がスピーカ4から出力される(図3/S012)。 If the determination result by the second speech recognition unit is affirmative (FIG. 3 / S010 ‥ YES), the scenario control unit 13 first speech candidate L 1 and the second audio candidate L 2 is displayed on the display 5, and , voice prompting propriety confirmation of the first speech candidate L 1 or the second speech candidate L 2 to the user is output from the speaker 4 (FIG. 3 / S012). これにより、第1音声候補L 1および第2音声候補L 2が同時または逐次的にディスプレイ5に表示される。 Thus, the first audio candidate L 1 and the second audio candidate L 2 is displayed simultaneously or sequentially display 5. たとえば図5(a)に示されているように第1音声候補L 1である「地図回転」および第2音声候補L 2である「ラーメン食いたい」が同時にディスプレイ5に表示される。 For example, FIG. 5, as shown in (a) is a first audio candidate L 1 "map rotation" and the second audio candidate L 2 "should eat pizza" is displayed on the display 5 simultaneously. また、図5(b)に示されているようにまず第1音声候補L 1である「地図回転」がディスプレイ5に表示され、使用者による「次」という発話やディスプレイ5に表示された次ボタンのタッチ操作に応じて図5(c)に示されているように第2音声候補L 2である「ラーメン食いたい」がディスプレイ5に表示される。 Also, next is first a first speech candidate L 1 as shown in FIG. 5 (b) "map rotation" is displayed on the display 5, is displayed on the utterance and the display 5 as "next" by the user as shown in FIG. 5 (c) in response to the button of the touch operation is a second speech candidate L 2 "should eat pizza" is displayed on the display 5.

一方、第1音声認識部による判定結果が否定的な場合(図3/S006‥NO)、または第2音声認識部による判定結果が否定的な場合(図3/S010‥NO)、シナリオ制御部13によって第1音声候補L 1のみがディスプレイ5に表示され、かつ、第1音声候補L 1の当否確認を使用者に促す音声がスピーカ4から出力される(図3/S014)。 On the other hand, when the determination result by the first speech recognition section negative case (Fig. 3 / S006 ‥ NO), or the determination result is negative in the second speech recognition section (FIG. 3 / S010 ‥ NO), the scenario controller by 13, only the first speech candidate L 1 is displayed on the display 5, and the voice prompting propriety confirmation of the first speech candidate L 1 to the user is output from the speaker 4 (FIG. 3 / S014). これにより、たとえば図5(b)に示されているように第1音声候補L 1である「地図回転」がディスプレイ5に表示される。 Thus, for example, first a speech candidate L 1 as shown in FIG. 5 (b) "map rotation" is displayed on the display 5.

さらに、シナリオ制御部13により、ディスプレイ5に表示された音声候補の選択操作の有無が判定される(図3/S016)。 Furthermore, the scenario control unit 13, whether the selection operation of voice candidates displayed on the display 5 is determined (Fig. 3 / S016). 当該判定結果が肯定的な場合(図3/S016‥YES)、シナリオ制御部13により、当該選択された音声候補に基づいて機器が制御される(図3/S018)。 If the determination result is affirmative (Fig. 3 / S016 ‥ YES), the scenario control unit 13, a device is controlled based on the selected audio candidates (Fig. 3 / S018). たとえば、図5(a)または図5(b)において第1音声候補L 1である「地図回転」がタッチ操作されると、ディスプレイ5に表示されているマップが一定角度回転された状態で表示されるようにナビゲーションシステム62の動作が制御される。 For example, if the first is a voice candidates L 1 in FIGS. 5 (a) or FIG. 5 (b) "map rotation" is touched, displayed with the map displayed on the display 5 is fixed angular rotation operation of the navigation system 62 is controlled to be. また、図5(a)または図5(c)において第2音声候補L 2である「ラーメン食いたい」がタッチ操作されると、ディスプレイ5に車両1の現在位置の周辺におけるラーメン店の所在位置がマップ上に表示され、あるいはラーメン店の所在地や電話番号のリスト等が表示されるようにナビゲーションシステム62の動作が制御される。 When the second is a speech candidate L 2 "should eat pizza" is touched in FIGS. 5 (a) or FIG. 5 (c), the location of the ramen shop in the vicinity of the current position of the vehicle 1 on the display 5 There is displayed on the map, or operation of the navigation system 62 is controlled so the list of ramen shop location and telephone number are displayed. 一方、当該判定結果が否定的な場合(図3/S016‥NO)、音声候補に基づく機器61〜63の動作制御が実行されることなく一連の処理が終了する。 On the other hand, the determination if the result is negative (Fig. 3 / S016 ‥ NO), the series of processing without motion control devices 61 to 63 based on the sound candidate is executed is terminated.

なお、第1音声認識部による判定(図3/S006)が省略されてもよい。 The determination by the first speech recognition section (FIG. 3 / S006) may be omitted. また、第1音声認識部による判定結果が否定的な場合(図3/S006‥NO)、または第2音声認識部による判定結果が否定的な場合(図3/S010‥NO)、第1音声候補L 1に基づいてただちに機器が制御されてもよい。 Further, when the determination result by the first speech recognition section negative case (Fig. 3 / S006 ‥ NO), or the determination result by the second speech recognition section negative (Fig. 3 / S010 ‥ NO), the first audio it may be immediately device control based on the candidate L 1.

ここで、第1音声認識処理および第2音声認識処理の詳細について説明する。 Here, details of the first voice recognition processing and the second speech recognition process.

言語モデル112および固有名詞辞書114のデータが有効化され、音声認識部11により入力音声がテキストとして出力される「音声認識処理」が実行される。 Data of the language model 112 and the proper noun dictionary 114 is enabled, the input speech by the speech recognition unit 11 is "speech recognition processing" is output as a text is performed. 第1音声候補L 1の認識に際して、言語モデル112および固有名詞辞書114のデータのうち、1次ドメイン群に分類されるデータが有効化される。 Upon recognition of the first voice candidate L 1, among the data of the language model 112 and the proper noun dictionary 114, the data is classified into primary domain group is enabled. 同様に、第2音声候補L 2の認識に際して、言語モデル112および固有名詞辞書114のデータのうち、2次ドメイン群に分類されるデータが有効化される。 Similarly, upon recognition of the second speech candidate L 2, among the data of the language model 112 and the proper noun dictionary 114, data classified into the secondary domain group is enabled.

まず、マイク2への入力音声がA/D変換されることで得られる波形データが周波数分析され、特徴ベクトルが抽出される。 First, the waveform data input speech to the microphone 2 is obtained by A / D converted is frequency analyzed, feature vectors are extracted. これにより、波形データは短時間スペクトル分析等の手法によってフィルタ処理され、特徴ベクトルの時系列に変換される。 Accordingly, the waveform data is filtered by a technique such as short-time spectral analysis and converted into a time series of feature vectors. 特徴ベクトルは、各時刻における音声スペクトルの特微量を抽出したもので、一般に10次元〜100次元(たとえば39次元)であり、LPC(Linear Predictive Coding(線形予測分析))やメルケプストラム(Mel Cepstrum)係数等が用いられる。 Feature vector is obtained by extracting a feature amount of the audio spectrum at each time is generally 10 D 100 D (e.g. 39-dimensional), LPC (Linear Predictive Coding (LPC analysis)) and mel-cepstrum (Mel Cepstrum) coefficient, or the like is used.

また、音響モデル111に格納された複数のHMMのそれぞれについて、当該特徴ベクトルの尤度(音響スコア)が評価される。 Also, for each of the plurality of HMM stored in the acoustic model 111, the likelihood of the feature vector (acoustic score) is evaluated. さらに、当該複数のHMMのうち音響スコアが高いHMMに対応する発音データが特定される。 Moreover, sound data acoustic score among the plurality of HMM correspond to high HMM is specified. これにより、たとえば「地図回転(chizukaiten)」という入力音声の波形データから、「chi−zu−kai−ten」という発音データおよび音響スコアが得られる。 Thus, for example, from the input speech waveform data of "map rotation (chizukaiten)", sound data and acoustic score of "chi-zu-kai-ten" is obtained.

さらに、言語モデル112のうち先に有効化されたデータが用いられ、当該得られた発音データから単語列で表現されたテキストが当該テキストの言語スコアに基づいて特定される。 Additionally, the enabled data used among destination language model 112, the text expressed in a word sequence from the obtained sound data is specified based on the language score of the text. 具体的には、当該発音データと言語モデル112に格納されている発音データとが比較され、類似度が高い単語が抽出される。 Specifically, compared with sound data stored in the sound data and the language model 112, word similarity is high is extracted. 次に、抽出された単語の言語スコアが、ユニグラムで与えられる1単語の出現確率と、バイグラムで与えられる2単語の生起確率とに基づいて評価される。 Then, the language score of the extracted words, 1 and word appearance probability given by unigram, are evaluated on the basis of the two words occurrence probability given by bigram. そして、発音データにおける各単語について、評価された言語スコアが所定値以上であること等の条件を満たすテキストが特定される。 Then, for each word in the phonetic data, evaluation language score is identified satisfy text such as not less than the predetermined value.

言語モデル112を用いたテキスト特定方法について、図6に示されているように「Set the station ninety nine point three FM.」という入力音声があった場合を例として説明する。 For text specified method using the language model 112 will be described as an example in which an input speech that as shown in FIG. 6, "Set the station ninety nine point three FM.". まず、ユニグラムによって「Set」「the」等、入力音声に含まれる単語のそれぞれの出現確率a1〜a8が与えられる。 First of all, such as "Set", "the" by the unigram, is each occurrence probability a1~a8 of words contained in the input speech is given. また、バイグラムによって「Set the」「the station」等、入力音声に含まれる連続する2つの単語の列のそれぞれの生起確率b1〜b7が与えられる。 Further, "Set the" "the station", etc., each of the occurrence probabilities b1~b7 two words of successive rows in the input speech given by bigram. そして、たとえば発音データ「ninety」から特定されたテキスト「ninety」の言語スコアが、単語「ninety」のユニグラムによる出現確率a4と、単語列「station ninety」のバイグラムによる生起確率b3とに基づいて評価される。 Then, for example, the language score of the text "ninety" that have been identified from the sound data "ninety" is, the probability of occurrence a4 by the uni-gram of the word "ninety", based on the occurrence probability b3 by bigram of the word string "station ninety" evaluation It is. また、発音データ「ninety」からテキスト「nearly」が特定された場合の言語スコアが、単語「nearly」のユニグラムによる出現確率a4'と、単語列「station nearly」のバイグラムによる生起確率b3'とに基づいて評価される。 In addition, the language score in the case of the text "nearly" has been identified from the sound data "ninety" is, 'and the word string probability by bigram of "station nearly" b3' word appearance by unigram of "nearly" probability a4 and It is evaluated based. そして、当該評価された言語スコアに基づき、発音データに含まれる各単語のテキストが特定される。 Then, based on the estimated language score, each word of the text included in the sound data is specified.

このように、単語毎の確率統計的な言語モデルを用いて入力音声をテキストとして書き起こす手法(ディクテーション)を用いることで、あらかじめ決められた言い回しの発話に限定されない、使用者の自然な発話の認識が可能となる。 Thus, by using a technique (dictation) causing write input speech using the stochastic language model for each word as text, not limited to the utterance of a predetermined phrases, natural speech of the user recognition is possible.

次に、固有名詞辞書114のうち有効化されたデータが用いられ、発音データからテキストが特定される。 Then, the enabled data are used out of proper nouns dictionary 114, the text is identified from the sound data. 具体的には、特定された発音データと、固有名詞辞書114に登録された固有名詞の発音データとの類似度が評価または算出される。 Specifically, the similarity of the identified sound data, the sound data of proper names registered in the proper noun dictionary 114 are evaluated or calculated. また、登録された複数の固有名詞のうち、類似度が所定度数以上である等の条件を満たす固有名詞が特定される。 Further, among a plurality of proper names registered, satisfy proper names etc. the degree of similarity is equal to or greater than the predetermined frequency is specified. さらに、当該評価された類似度に基づき、特定された固有名詞の尤度(言語スコア)が評価される。 Furthermore, based on the estimated degree of similarity, the likelihood of the identified proper nouns (language score) is evaluated.

このように固有名詞辞書114が用いられることにより、多様な言い回しがされ易い一般語に比べて、テキストコーパスにおける出現頻度が比較的低く、言い回しが限定されている固有名詞について、精度良くテキストが特定されうる。 By thus proper noun dictionary 114 is used, as compared with easily general terms is that various phrases, frequency of occurrence text corpus is relatively low, the proper nouns wording is limited, precisely text specific It can be.

また、言語モデル112および固有名詞辞書114が用いられて特定されたすべてのテキストについて、音響スコアおよび言語スコアの重み付き和である音声認識の確信度(音声認識スコア)が評価または算出される。 Moreover, for all of the text specified by the used language model 112 and the proper noun dictionary 114, confidence of speech recognition is a weighted sum of the acoustic score and language score (speech recognition score) is evaluated or calculated. 重み係数としては実験的または経験的に設定された値が用いられうる。 May be used are set experimentally or empirically value as the weighting factor.

さらに、音声認識スコアが所定値以上であること、音声認識スコアの順位が所定順位以上であること等、所定の条件を満たす単語列で表現されるテキストが、認識されたテキストとして特定され、かつ、出力される。 Furthermore, it speech recognition score is higher than a predetermined value, that such order of speech recognition score is higher than a predetermined rank, text represented in a predetermined condition is satisfied word sequence, identified as recognized text, and , it is output.

続いて、構文解析部12により、前記の手順で音声認識部11により認識されたテキストに基づいて発話の意味が理解される「構文解析処理」が実行される。 Subsequently, the syntax analysis unit 12, the meaning of the utterance based on the recognized text by the voice recognition unit 11 by the above procedure is understood "parsing process" is executed.

具体的には、認識されたテキストに基づき、構文モデル122が用いられて分類テキスト(Categorized Text)が特定される。 Specifically, based on the recognized text classification text (Categorized Text) is identified syntax model 122 is used. 1単語、2単語列、3単語列のそれぞれについて、各ドメインに対する尤度が評価される。 1 word 2 word string, for each of the three word string, the likelihood for each domain is evaluated. そして、1単語、2単語列、3単語列のそれぞれについて、当該評価された尤度に基づいてドメインが特定される。 Then, one word, 2 word string, for each of the three word strings, domains are identified based on the estimated likelihood. なお、入力音声に含まれる単語数が3未満である場合、1単語および2単語列のそれぞれについて尤度が評価され、当該尤度に基づいてドメインが特定されればよい。 Incidentally, if the number of words included in the input speech is less than 3, are evaluated likelihood for each of one word and two words string, it suffices domains identified based on the likelihood.

また、1単語、2単語列、3単語列のそれぞれについて、構文モデル122のうち、特定されたドメインの種類に分類された部分のデータが用いられて、各クラスの組に対する尤度が評価される。 Also, 1 word, 2 word string, for each of the three word string among the syntax model 122, the data is used in the classified portion to the type of the identified domains, likelihood is evaluated for each set of classes that. そして、1単語、2単語列、3単語列のそれぞれについて、評価された尤度に基づいてクラスの組が特定される。 Then, one word, 2 word string, for each of the three word string, the set of classes is specified based on the estimated likelihood. なお、入力音声に含まれる単語数が3未満である場合、1単語および2単語列のそれぞれについて尤度が評価され、当該尤度に基づいてクラスの組が特定されればよい。 Incidentally, if the number of words included in the input speech is less than 3, are evaluated likelihood for each of one word and two words columns, a set of classes based on the likelihood need be specified.

さらに、1単語、2単語列、3単語列で特定されたクラスの組とその尤度とに基づき、テキスト全体としての各クラスの組の尤度(構文解析スコア)が評価される。 Furthermore, one word, 2 word string, based on the class identified in 3 word string combination and its likelihood, of each set of classes as a whole text likelihood (parsing score) is evaluated. また、構文解析スコアに基づき、テキスト全体について、クラス分類されたテキストが特定される。 Further, based on the parsing score, the entire text, classification text is identified.

構文モデル122が用いられた、クラス分類されたテキストの特定方法について、図7に示されているように認識されたテキストが「AC on the floor to deforest」である場合を例として説明する。 Syntax Model 122 was used for a particular method of classification text, text recognized as shown in FIG. 7 will be described as an example where the "AC on the floor to deforest".

このとき、構文モデル122のすべてのデータが用いられ、「AC」「on」等の単語のそれぞれについて、ユ二グラムにより各ドメインに対する尤度が評価または算出される。 At this time, all the data are used in the syntax model 122, for each word, such as "AC", "on", the likelihood for each domain are evaluated or calculated by Yu two grams. そして、当該評価された尤度に基づき、複数のドメインの中からたとえば尤度が最高のドメインが特定される。 Then, based on the assessed likelihood, for example, the likelihood from among a plurality of domains highest domain is identified. たとえば、単語「AC」についてはドメイン{climate}が特定される。 For example, the word for "AC" is identified domain {climate}.

さらに、各単語について、構文モデル122のうち、特定されたドメインの種類に分類された部分のデータが用いられて、各クラスの組に対する尤度が評価される。 Further, for each word, of the syntax model 122, the data is used in the classified portion to the type of the identified domains, likelihood for a set of each class is evaluated. たとえば、単語「AC」についてはドメイン{climate}のデータを用いて尤度が評価され、{ACOnOff_On}の組が特定される。 For example, the word for "AC" is evaluated likelihood by using the data for the domain {climate}, it is identified set of {ACOnOff_On}. このとき、「AC」のクラス分類されたテキストが{climate_ACOnOff_On}とされた場合の尤度c1が評価される。 At this time, the likelihood c1 when classification text of "AC" is the {Climate_ACOnOff_On} is evaluated. 「on」等のその他の単語についても同様にクラスの組とその尤度(1単語スコアリスト)c2〜c5が評価される。 "On" other similar to the class set and the likelihood of even the word such as (1 word score list) c2~c5 is evaluated.

また「AC on」等の2つの単語の劣のそれぞれについて、バイグラムにより各ドメインに対する尤度がそれぞれ評価され、当該尤度に基づいてドメインが特定される。 Also for each of the two words in deterioration such as "AC on" likelihood for each domain were evaluated respectively by bigram, domains are identified based on the likelihood. すなわち、クラスの組およびその尤度(2単語スコアリスト)d1〜d4が特定される。 That is, the set and its likelihood (2 word score list) class d1~d4 is identified.

さらに「AC on floor」等の3つの単語の列のそれぞれについて、トリグラムにより各ドメインに対する尤度がそれぞれ評価され、当該尤度に基づいてドメインが特定される。 Furthermore for each of the three words in string such as "AC on floor" likelihood for each domain were evaluated respectively by trigram, domains are identified based on the likelihood. すなわち、クラスの組およびその尤度(3単語スコアリスト)e1〜e3が特定される。 That is, the set and its likelihood (3 word score list) class e1~e3 is identified.

そして、1単語、2単語列、3単語列で特定されたクラスの組と、その尤度c1〜c5、d1〜d4、e1〜e3とに基づいて、テキスト全体としての各クラスの組の尤度(構文解析スコア)が評価される。 Then, one word, 2 word string, 3 a set of words identified in column class, the likelihood c1 to c5, d1 to d4, based on the e1-e3, each class set of likelihood as a whole text degree (parsing score) is evaluated. また、構文解析スコアに基づき、テキスト全体について、分類テキストが特定される。 Further, based on the parsing score, the entire text, classifying the text is identified. これにより、認識されたテキストに基づき{climate_Defrost_Front}、{Climate_Fan−Vent_Floor}等の分類テキストが特定される。 Thus, based on the recognized text {Climate_Defrost_Front}, it is identified classification text, such as {Climate_Fan-Vent_Floor}.

さらに、固有名詞辞書124が用いられて、認識されたテキストから分類テキストが特定される。 Furthermore, proper noun dictionary 124 is used, the classification text is identified from the recognized text. 具体的には、認識されたテキストに含まれる単語のそれぞれについて、単語のテキストと、固有名詞辞書124に登録された各固有名詞のテキストとの類似度が評価され、当該登録固有名詞のうち類似度が所定値以上である等の条件を満たす固有名詞がテキストに含まれている単語として特定される。 Specifically, for each of the words included in the recognized text, and the word of the text, the degree of similarity between the proper noun text registered in the proper noun dictionary 124 is evaluated, similar among the registered proper nouns degrees satisfies the condition proper nouns etc. is not less than the predetermined value is specified as a word contained in the text. また、固有名詞に付されたタグの内容に基づき、分類テキストが特定される。 Further, based on the content of the tag attached to proper nouns, classification text is identified. また、当該類似度に基づき、当該分類テキストの尤度(構文解析スコア)が評価される。 Further, based on the similarity, the classification text likelihood (parsing score) is evaluated.

また、評価された構文解析スコアが所定値以上であること、構文解析スコアの順位が所定順位以上であること等の条件を満たすような分類テキストが、入力された発話の認識結果として特定され、その認識結果の確信度(構文解析スコア)とともに出力される。 It evaluated parsed score is higher than a predetermined value, rank parsing score classification text that satisfies the conditions such that at least a predetermined rank, is identified as the recognition result of the input speech, is output together with confidence of the recognition result (parsing score). これにより、たとえば、上述のように入力音声「AC on floor to deforest」の認識結果として、{Climate_Defrost_Front}が、その認識結果の確信度(構文解析スコア)とともに出力される。 Thus, for example, as a recognition result of the input speech, as described above, "AC on floor to deforest" is {Climate_Defrost_Front}, is output with certainty of the recognition result (parsing score).

さらに、シナリオ制御部13により、構文解析部12による発話の認識結果と、車両状態検出部3により検出された車両1の状態(車両1の走行状態、車両1の搭載機器の作動状態、車両1の使用者の心身状態等)とに基づき、かつ、シナリオデータベース132が用いられ、使用者への応答や機器の制御を行うためのシナリオが特定される。 Furthermore, the scenario control unit 13, a recognition result of the speech by the parser 12, the vehicle 1 detected by the vehicle state detection unit 3 state (running state of the vehicle 1, the operating state of mounting device of the vehicle 1, the vehicle 1 based on the psychosomatic state, etc.) of the user's and the scenario database 132 is used, the scenario for a response and control equipment to the user is identified.

前記機能を発揮する音声応答システム10によれば、マイク(音声入力手段)2への入力音声に基づき、異なる第1ドメインおよび第2ドメインのそれぞれに属する第1音声候補L 1および第2音声候補L 2が認識され、かつ、出力される(図3/S012、図5(a)〜(c)参照)。 According to the voice response system 10 with the aforementioned functions, a microphone based on the input voice to the (sound input means) 2, different first domain and the first audio candidate L 1 and the second voice candidates belonging to the respective second domain L 2 is recognized, and is outputted (refer to FIG. 3 / S012, FIG. 5 (a) ~ (c) ). これにより、当該使用者の発話から乖離したカテゴリに属する複数の音声候補が偏重的に出力される事態が回避されうる。 Thus, a situation in which a plurality of voice candidates belonging to the category which deviates from the utterance of the user is output unbalance manner can be avoided. また、出力される第1音声候補L 1および第2音声候補L 2に使用者の発話に該当する音声候補を高い確率で含ませることができる。 Further, it is possible to include a first speech candidate L 1 and the second audio candidates corresponding to speech of a user to voice candidate L 2 is output at a high probability. そして、当該複数の音声候補の中から使用者により選択された、当該使用者の発話に合致した1つの音声候補が高い確率で認識され、使用者の意図に沿った形での応答が可能となる(図3/S018参照)。 Then, selected by the user from among the plurality of voice candidates one voice candidates that match the utterance of the user is recognized with high probability, and can response in line with the user's intention becomes (see FIG. 3 / S018). すなわち、使用者の発話に合致する蓋然性の高い音声候補が特定のカテゴリに偏重することなく認識され、使用者による当該音声候補の選択結果に応答することが可能となる。 That, is recognized without high voice candidates probable that matches the utterance of the user is biased towards a particular category, it becomes possible to respond to the sound candidate selection result by the user.

また、第2音声候補L 2のスコア(尤度)sc(L 2 )が第2閾値θ 2以上であることを要件として当該第2音声候補L 2が出力される(図3/S010,S012参照)。 The second speech candidate L 2 of the score (likelihood) sc (L 2) is the second audio candidate L 2 is outputted as a requirement that the second threshold theta 2 or more (Fig. 3 / S010, S012 reference). これにより、入力音声に該当する可能性が著しく低い音声候補までもが出力される事態が回避される。 Thus, a situation which also is output to the likelihood is extremely low sound candidates corresponding to the input speech is avoided.

また、第2音声候補L 2のスコア(尤度)sc(L 2 )が第2閾値θ 2未満である場合、第1音声候補L 1にのみ基づいて機器61〜63が制御されうる(図3/S010,S014参照)。 Also, if the second speech candidate L 2 of the score (likelihood) sc (L 2) is a second threshold value θ less than 2, devices 61 to 63 based on only the first audio candidate L 1 can be controlled (FIG. reference 3 / S010, S014). これにより、ユーザの発話に該当する可能性が極めて低い音声候補にしたがって機器61〜63が制御される事態が確実に回避されうる。 Thus, a situation that may be relevant to the speech of the user equipment 61 to 63 is controlled in accordance with a very low sound candidate may be reliably avoided.

本発明の音声応答システムの構成説明図 Diagram illustrating the configuration of a voice response system of the present invention 言語モデル、構文モデル、固有名詞辞書の構成説明図 Language model, syntax model, configuration explanatory view of the proper noun dictionary 音声応答システムの機能説明図 Function illustration of voice response system 音声応答システムの機能説明図 Function illustration of voice response system 音声応答システムの機能説明図 Function illustration of voice response system 言語モデルを用いた音声認識処理に関する説明図 Illustration for voice recognition process using a language model 構文モデルを用いた構文解析処理に関する説明図 Illustration regarding the parsing process using the syntax model

符号の説明 DESCRIPTION OF SYMBOLS

1‥音声応答ユニット、2‥マイク、3‥車両状態検出部、4‥スピーカ、5‥ディスプレイ、61〜63‥機器、10‥車両、11‥音声認識部、12‥構文解析部、13‥シナリオ制御部、14‥音声合成部、111‥音響モデル、112‥言語モデル、114‥固有名詞辞書、122‥構文モデル、124‥固有名詞辞書、132‥シナリオデータベース、142‥音素モデル 1 ‥ voice response unit, 2 ‥ microphone, 3 ‥ vehicle state detecting unit, 4 ‥ speaker, 5 ‥ display, 61 to 63 ‥ device, 10 ‥ vehicle, 11 ‥ speech recognition unit, 12 ‥ parser, 13 ‥ scenario control unit, 14 ‥ speech synthesis unit, 111 ‥ acoustic model, 112 ‥ language model, 114 ‥ proper noun dictionary, 122 ‥ syntax model, 124 ‥ proper noun dictionary, 132 ‥ scenario database, 142 ‥ phoneme model

Claims (5)

  1. 音声入力手段に入力された音声に基づき、1次ドメイン群に含まれる第1ドメインに属する音声候補を第1音声候補として認識する第1音声認識部と、 Based on the speech input to the speech input means, the first speech recognition unit recognizes the speech candidate belonging to the first domain contained in the primary domain group as the first sound candidate,
    該音声入力手段に入力された該音声に基づき、該第1ドメインを含まない2次ドメイン群に含まれる第2ドメインに属する音声候補を第2音声候補として認識する第2音声認識部と、 Based on the speech input to the speech input means, a second speech recognition unit recognizes the speech candidate belonging to the second domain contained in the secondary domain group not including the first domain as a second sound candidate,
    該第1音声認識部により認識された第1音声候補と、該第2音声認識部により認識された第2音声候補とを出力する出力部と、 A first speech candidate recognized by the first speech recognition section, and a second output unit for outputting a sound candidate recognized by the second speech recognition section,
    該出力部により出力された該第1音声候補および該第2音声候補のうち使用者により選択された音声候補を認識する確認部とを備えていることを特徴とする音声応答システム。 Voice response system, characterized in that it comprises a recognizing confirmation unit the speech candidate selected by the user among the first speech candidate and the second speech candidates output by the output unit.
  2. 請求項1記載の音声応答システムにおいて、 According to claim 1, wherein the voice response system,
    前記第2音声認識部が前記第2音声候補のスコアを評価し、 The second speech recognition section evaluates the scores of the second speech candidate,
    前記出力部が、該第2音声認識部により評価されたスコアが所定のスコア以上であることを要件として該第2音声候補を出力することを特徴とする音声応答システム。 Voice response system in which the output section is, scores assessed by the second speech recognition section and outputting a second voice candidates as a requirement that at least a predetermined score.
  3. 請求項1記載の音声応答システムにおいて、 According to claim 1, wherein the voice response system,
    前記確認部により認識された音声候補に基づき、機器の動作を制御する機器制御部とをさらに備えていることを特徴とする音声応答システム。 Voice response system, characterized in that the basis of the recognized voice candidate by the confirmation section further includes a device control unit for controlling the operation of the equipment.
  4. 請求項3記載の音声応答システムにおいて、 In claim 3, wherein the voice response system,
    前記第2音声認識部が前記第2音声候補のスコアを評価し、 The second speech recognition section evaluates the scores of the second speech candidate,
    前記機器制御部が、該第2音声認識部により評価されたスコアが所定のスコア未満である場合、前記第1音声候補に基づいて前記機器の動作を制御することを特徴とする音声応答システム。 The device control unit, when the evaluation scores by the second speech recognition section is less than the predetermined score, the voice response system, characterized by controlling the operation of the device based on the first sound candidate.
  5. 音声入力手段に入力された音声に基づき、1次ドメイン群に含まれる第1ドメインに属する音声候補を第1音声候補として認識する第1音声認識機能と、 Based on the speech input to the speech input means, a first voice recognition function of recognizing a speech candidate belonging to the first domain contained in the primary domain group as the first sound candidate,
    該音声入力手段に入力された該音声に基づき、該第1ドメインを含まない2次ドメイン群に含まれる第2ドメインに属する音声候補を第2音声候補として認識する第2音声認識機能と、 Based on the speech input to the speech input unit, and a speech candidate belonging to the second domain contained in the secondary domain group not including the first domain second voice recognition function of recognizing a second speech candidate,
    該第1音声認識機能により認識された第1音声候補と、該第2音声認識機能により認識された第2音声候補とを該使用者に知らせる出力機能と、 A first speech candidate recognized by the first speech recognition function, an output function of informing the said use's a second speech candidate recognized by the second speech recognition function,
    該出力機能により出力された該第1音声候補および該第2音声候補のうち使用者により選択された音声候補を認識する確認機能とをコンピュータに付与することを特徴とする音声応答プログラム。 Voice response program characterized by imparting recognizing confirmation function speech candidate selected by the user among the first speech candidate and the second speech candidates output by the output function in the computer.
JP2006237980A 2006-09-01 2006-09-01 Voice response systems, voice response program Expired - Fee Related JP4666648B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006237980A JP4666648B2 (en) 2006-09-01 2006-09-01 Voice response systems, voice response program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006237980A JP4666648B2 (en) 2006-09-01 2006-09-01 Voice response systems, voice response program

Publications (2)

Publication Number Publication Date
JP2008058813A true JP2008058813A (en) 2008-03-13
JP4666648B2 JP4666648B2 (en) 2011-04-06

Family

ID=39241580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237980A Expired - Fee Related JP4666648B2 (en) 2006-09-01 2006-09-01 Voice response systems, voice response program

Country Status (1)

Country Link
JP (1) JP4666648B2 (en)

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037797A (en) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> Dialogue learning device, summarization device, dialogue learning method, summarization method, program
WO2014088377A1 (en) * 2012-12-07 2014-06-12 삼성전자 주식회사 Voice recognition device and method of controlling same
JP2014222513A (en) * 2010-01-18 2014-11-27 アップル インコーポレイテッド Intelligent automated assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953645B2 (en) 2012-12-07 2018-04-24 Samsung Electronics Co., Ltd. Voice recognition device and method of controlling same
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10381016B2 (en) 2016-03-29 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0225897A (en) * 1988-07-14 1990-01-29 Ricoh Co Ltd Voice dialing device
JPH0442348A (en) * 1990-06-08 1992-02-12 Canon Inc Character processor
JPH0445500A (en) * 1990-06-13 1992-02-14 Sanyo Electric Co Ltd Pattern recognizing device using neutral network
JPH08161320A (en) * 1994-11-30 1996-06-21 Toshiba Corp Document preparing device and display processing method therefor
JP2001318688A (en) * 2000-05-12 2001-11-16 Kenwood Corp Speech recognition device
JP2004046106A (en) * 2002-05-15 2004-02-12 Pioneer Electronic Corp Speech recognition device and speech recognition program
JP2004053871A (en) * 2002-07-19 2004-02-19 Hitachi Medical Corp Speech recognition system
JP2005031260A (en) * 2003-07-09 2005-02-03 Canon Inc Method and apparatus for information processing
JP2005043831A (en) * 2003-07-25 2005-02-17 Sharp Corp Information processor, display layout processing method, display layout processing program, and program recording medium
JP2005100468A (en) * 2004-12-24 2005-04-14 Mitsubishi Electric Corp Character input device
JP2006184669A (en) * 2004-12-28 2006-07-13 Nissan Motor Co Ltd Device, method, and system for recognizing voice

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0225897A (en) * 1988-07-14 1990-01-29 Ricoh Co Ltd Voice dialing device
JPH0442348A (en) * 1990-06-08 1992-02-12 Canon Inc Character processor
JPH0445500A (en) * 1990-06-13 1992-02-14 Sanyo Electric Co Ltd Pattern recognizing device using neutral network
JPH08161320A (en) * 1994-11-30 1996-06-21 Toshiba Corp Document preparing device and display processing method therefor
JP2001318688A (en) * 2000-05-12 2001-11-16 Kenwood Corp Speech recognition device
JP2004046106A (en) * 2002-05-15 2004-02-12 Pioneer Electronic Corp Speech recognition device and speech recognition program
JP2004053871A (en) * 2002-07-19 2004-02-19 Hitachi Medical Corp Speech recognition system
JP2005031260A (en) * 2003-07-09 2005-02-03 Canon Inc Method and apparatus for information processing
JP2005043831A (en) * 2003-07-25 2005-02-17 Sharp Corp Information processor, display layout processing method, display layout processing program, and program recording medium
JP2005100468A (en) * 2004-12-24 2005-04-14 Mitsubishi Electric Corp Character input device
JP2006184669A (en) * 2004-12-28 2006-07-13 Nissan Motor Co Ltd Device, method, and system for recognizing voice

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2014222513A (en) * 2010-01-18 2014-11-27 アップル インコーポレイテッド Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
JP2012037797A (en) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> Dialogue learning device, summarization device, dialogue learning method, summarization method, program
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9953645B2 (en) 2012-12-07 2018-04-24 Samsung Electronics Co., Ltd. Voice recognition device and method of controlling same
WO2014088377A1 (en) * 2012-12-07 2014-06-12 삼성전자 주식회사 Voice recognition device and method of controlling same
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10381016B2 (en) 2016-03-29 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10390213B2 (en) 2018-05-24 2019-08-20 Apple Inc. Social reminders

Also Published As

Publication number Publication date
JP4666648B2 (en) 2011-04-06

Similar Documents

Publication Publication Date Title
US7158934B2 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic model
JP5819924B2 (en) Recognition architecture for generating an Asian character
US8214213B1 (en) Speech recognition based on pronunciation modeling
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5855000A (en) Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
Ananthakrishnan et al. Automatic prosodic event detection using acoustic, lexical, and syntactic evidence
JP4221379B2 (en) Automatic identification of telephone callers based on the voice characteristics
KR101403980B1 (en) Interactive speech recognition system
US9020819B2 (en) Recognition dictionary system and recognition dictionary system updating method
US6934683B2 (en) Disambiguation language model
US7447635B1 (en) Natural language interface control system
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US7672846B2 (en) Speech recognition system finding self-repair utterance in misrecognized speech without using recognized words
EP1083545A2 (en) Voice recognition of proper names in a navigation apparatus
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
Placeway et al. The 1996 hub-4 sphinx-3 system
JP3520022B2 (en) Foreign language learning device, foreign language learning methods and media
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US20070225980A1 (en) Apparatus, method and computer program product for recognizing speech
US6795806B1 (en) Method for enhancing dictation and command discrimination
US7813928B2 (en) Speech recognition device, speech recognition method, and program
US8407039B2 (en) Method and apparatus of translating language using voice recognition
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110107

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees