JPH05197389A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05197389A
JPH05197389A JP4184220A JP18422092A JPH05197389A JP H05197389 A JPH05197389 A JP H05197389A JP 4184220 A JP4184220 A JP 4184220A JP 18422092 A JP18422092 A JP 18422092A JP H05197389 A JPH05197389 A JP H05197389A
Authority
JP
Japan
Prior art keywords
word
sentence
voice
syntax
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4184220A
Other languages
English (en)
Inventor
Hiroyuki Tsuboi
宏之 坪井
Yoichi Takebayashi
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4184220A priority Critical patent/JPH05197389A/ja
Priority to US07/928,417 priority patent/US5457768A/en
Priority to DE69225173T priority patent/DE69225173T2/de
Priority to EP92307414A priority patent/EP0527650B1/en
Publication of JPH05197389A publication Critical patent/JPH05197389A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】本発明は、無意味な語の発声や複数の文を連続
的に発声するような自然な発話について対応できるよう
にしている。 【構成】音声入力部1より入力された音声信号を音声認
識部2で分析し音声特徴パラメータの時系列を求め、こ
の時系列から抽出される音声特徴ベクトルと予め用意さ
れた認識対象単語を照合して単語候補を時系列に出力
し、この時系列に出力される各単語候補をキーワードと
して構文解析部3に与え、ここで構文の制約に基づいて
構文解析を行い文候補を生成するようにしている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、構文・意味解析を用い
た音声認識装置に関するものである。
【0002】
【従来の技術】最近、人間が機械に対して直接音声によ
り指令を与えるような試みが成されており、音声認識の
ための各種の技術が開発されている。
【0003】しかし、現状では、人間と機械の自然な対
話を可能にするようなものは実現していない。この原因
の一つに自然な対話における発話のゆれの問題があるこ
とが知られている。つまり、人間同志の自然な対話の発
話は、書物などに書かれた文章等に比べて曖昧であり、
文法的にとどまらず、文の単位や文の境界自体も明確で
ない。加えて、伝える内容に直接関係のない無意味な語
や、言い淀み、雑音などの発話のゆれを含むことが知ら
れている。
【0004】こうした発話のゆれに対して従来の音声認
識装置は対処することができず、このため、これまでは
音声インタフェースとして1文単位の人間の音声入力を
促す入力モードでは、予め決った入力語彙を予め決った
語順あるいは文法に従って入力しなければならず、例え
ば、「あの−」「ええと」などのような無意味な語を発
声したり複数の文を連続的に発声するような人間の自然
な形の発話は除外されていた。
【0005】これは従来の音声認識装置では、入力音声
からその意味内容を抽出するために、先ず、音声区間の
検出を行い、音声区間を隙間なく時間的に連続した意味
を持つ系列と見なして解析し、文として評価しているた
めである。つまり、ここでは、音声エネルギーの変化な
どの情報を利用して、発声された音声区間の始端あるい
は始終端を検出し、単語や単文の発話区間を取り出し、
続けて、それら区間から抽出された音声特徴パラメータ
について単語や音韻などの音声認識辞書のパターンと照
合し、これにより抽出された単語や音韻などの系列に対
し文法に記述された構文的意味的な制約を利用して、構
文・意味解析を行ない音声区間に存在する音韻や単語の
系列を隙間なく時間的に連続した区間を意味を持つ系列
と見なして解析し文として評価するようにしている。
【0006】しかし、このような方法によると、音声区
間の中に雑音や「あのー」「ええと」のような、それ自
体意味を持たない語や、文中の間(無音区間)、言い淀
み、それに対する認識誤りや省略など、不確定な要素が
存在する場合、その音声区間全体の構文・意味解析が失
敗してしまう。
【0007】そこで、これらの対策として、例えば雑音
や無音区間にカテゴリなどの意味を与え、他の意味を持
つ要素と同様の制約下で解析する方法も考案されている
が、これら各要素の出現位置の不確定さゆえに計算量の
著しい増大を招き易く、対処できる範囲も限定されてし
まう。
【0008】また、従来の方法では、音声から構文、意
味的な処理と無関係に音響的な特徴のみによって、その
発話の始終端が決定されてしまうという問題もある。こ
れは、入力の構文、意味的な処理における音声区間の前
後に付加された雑音であるとか、「あのー」「ええと」
のように、それ自体意味を持たない語や、言い淀み、そ
れに対する認識誤りなど、言語知識で対処できる範囲を
外れた構文、意味的な処理の対象から除くことができ
ず、構文、意味的な処理が失敗してしまうことがある。
【0009】また、上述の処理において音声区間つまり
文の、終端位置に自由度を持たせる解析方法も提案され
ているが、その場合でも、発話の少なくとも始端は、あ
らかじめ固定したものとして扱われるため、そこに内在
する問題は、始終端が固定された場合と同じである。
【0010】さらに、照合単位の始終端に自由度を持た
せる方法としてスポッティング法が挙げられるが、始終
端に自由度があるのは照合の単位としての単語や音韻で
あり、入力音声の始終端は音響的特徴を使用して決めら
れたものであり、入力音声内の意味を持たない語や、言
い淀み、省略などをすべて照合の単位、すなわち単語等
として扱い、音声区間に存在する音韻や単語の系列を隙
間なく時間的に連続した区間を意味を持つ系列と見なし
て解析し、文として評価する言語的な処理を行う必要が
あるため、対処できる範囲も限定されてしまう。
【0011】この様に、入力に発話のゆれがある入力音
声の構文や意味処理によって発話の内容を取り出す方法
は、今日に至るまで確立されておらず、こうした理由に
より、従来の音声認識のための装置は、音声インタフェ
ースとして、構文的に決った1文単位の音声入力を促す
必要があり、例えば、複数の文を連続的に発声したり、
音声区間の中に、雑音であるとか、「あのー」「ええ
と」のようなそれ自体は意味を持たない語や、文中の間
(無音区間)、言い淀み、それに対する認識誤りや省略
など人間の自然な対話で現れる形のゆれを含む発話を認
識の対象とすることができなかった。
【0012】
【発明が解決しようとする課題】このように従来の音声
認識装置にあっては、発話のゆれを処理できないため、
音声入力モードでは予め決った入力語彙を予め決った語
順あるいは文法に従って1文単位の入力を行わなくては
ならず、「あの−」「ええと」などのような無意味な語
を発声したり複数の文を連続的に発声するような自然な
発話を入力することができないという問題点があった。
【0013】本発明は上記事情に鑑みてなされたもの
で、無意味な語の発声や複数の文を連続的に発声するよ
うな自然な発話について対応できる音声認識装置を提供
することを目的とする。
【0014】
【課題を解決するための手段】本発明の音声認識装置
は、音声信号を入力する音声入力手段と、この音声入力
手段より入力された音声信号を分析し音声特徴パラメー
タの時系列を求め、この時系列から抽出される音声特徴
ベクトルと予め用意された認識対象単語を照合して単語
候補を時系列に出力する音声認識手段と、音声認識手段
より時系列に出力される各単語候補をキーワードとして
構文の制約に基づいて構文解析を行い、文候補を生成す
る構文解析手段とにより構成している。
【0015】
【作用】即ち、この発明によると、入力される音声パタ
ーンに対して終端点Eを所定時間、例えば8msecだ
け順次シフトしながら各終端点Eにおける異なる始端点
候補区間、即ち、各終端点Eと異なる複数の始端点との
区間の各々において単語認識が行われ、多数の単語候補
が出力される。これらの単語候補をキーワードとして文
候補を生成している。この結果、入力される音声の発話
を解釈し、意味表現を取り出すために必要な情報の性質
を考慮することで、例えば「あの−」「ええと」などの
ような無意味な語を発声したり文中の間(無音区間)、
言い淀みや省略などのゆれを含む自然な発話に対する音
声認識を可能にでき、実際場面での人間と機械の自然発
話に対応できることからマンマシン・インタフェースの
向上を図ることも可能にしている。
【0016】
【実施例】以下に、この発明の一実施例を図面を参照し
て説明するが、この実施例の音声認識装置を品物の注文
を理解するために利用するものとして説明する。この注
文の理解とは、入力された音声の意味内容を取り出すこ
とであり、例えば、図17(a)に示すように「えー
と、ハンバーガーと、うーんと、コーヒー3つ下さい」
の音声が入力された場合に図17(b)に示されるよう
な((act ORDER)(item HUMB N
ONUM)(item COFFEE 3))の意味表
現を得ることが入力音声を理解することである。この入
力音声を理解するために入力音声中から意味表現に必要
なキーワードを検出し、構文・意味的な解析を行って意
味表現を生成する。尚、キーワードとは「自由な発声を
理解して意味表現を得るために必要な予め定めた特定の
単語」を表わすものとする。また、文とは、「自由な発
声に現われる構文的及び意味的に妥当なキーワードの系
列」を表わし、文候補とは、「文解析の結果である複数
のキーワード系列」であり、部分文候補とは、「文候補
の一部となり得る複数のキーワード系列」であるとす
る。尚、入力文、キーワード、文および部分文の例が図
17(a)に示され、キーワードと意味表現の関係が図
17(b)に示されている。
【0017】次に、図1を参照して本発明の一実施例の
音声認識装置の構成を説明する。
【0018】音声入力部1は、マイクロホン等を介して
入力される音声信号をデジタル信号に変換し、このデジ
タル信号にFFT,フイルタ分析、LPC分析、ケプス
トラム分析などの分析処理を施し、音声特徴パラメータ
の系列を生成する。この音声入力部1により生成された
音声特徴パラメータ系列は音声認識部2に送られる。
【0019】音声認識部2は、例えば図3に示されるよ
うな予め定められた認識対象単語であるキーワードの音
声特徴パターンを記憶した音声認識辞書メモリ21に結
合され、この音声認識辞書メモリ21の辞書と音声特徴
パラメータ系列とを照合する。ワードスポッティング法
による音声認識の場合には、音声入力部1で生成された
特徴パラメータ系列は、始終端検出を行わずに例えば8
msecのフレーム周期毎に音声認識辞書メモリ21の
辞書と連続的に照合される。この照合は、最新フレーム
の特徴パラメータを基準とした終端同期で、発声速度の
変化に対応するため単語始端に自由度を持たせた形で行
う。尚、連続的照合によるワードスポッティング法は特
願平1ー255270号に詳細に述べられている。
【0020】音声認識部2の認識結果は、時間的に離散
な単語の系列(単語ラティス)の形式で構文・意味解析
部3に送られる。単語ラティスの個々の単語は、少なく
とも始端、終端、尤度、単語名の4つの情報を有してい
る。単語の尤らしさを表現する尤度は、距離、類似度、
確率などが考えられ、尤度を用いて後述する構文・意味
解析を行い、文候補としての尤度を評価関数により求め
る。
【0021】この実施例におけるキーワードが図3に示
され、文法が図5に示されている。また、意味表現の形
式が図22に示されている。actとは、発声の意図す
るアクションであり、この実施例では、「下さい」の意
味を表わすORDER、「追加」の意味を表わすAPP
END、「いらない」の意味を表わすDELETEがア
クションである。また、itemは、品目を表わし、品
名と個数の組からなる。この組をスロットと呼び、ac
tとitemが組み合わされた意味表現をフレームと呼
ぶことにする。入力発声でアクションと個数が省略され
た場合は、NOACT,NONUMと表記され、アクシ
ョンと個数に関するキーワードが解析により得られなか
ったことを意味表現中に表わす。更に、例えば、品物に
よっては、複数のサイズを持つものがある。例えば、辞
書に「コーラ」COLA S5:E5 L,M,Sとそ
の品目が持つサイズが書かれていることがある。このよ
うな場合、「コーラ下さい」と入力発声でサイズが省略
された場合は、サイズの項目にNOSIZEと表記す
る。
【0022】構文・意味解析部3は、音声認識部2から
キーワードが検出される毎にキーワードを入力し、文法
・辞書記憶部4に記憶されている入力文の構文的意味的
な情報及び時間的な関係を記述した文法・辞書情報を用
いて構文・意味解析を行う。
【0023】図3には、単語辞書と後述する単語の接続
可能な範囲の例が示され、図4には、意味解析処理も含
む文法規則の例が示されている。これらが文法・辞書記
憶部4に記憶されている。
【0024】単語ラティスの解析においては、文法・辞
書情報に記述されている各単語間の時間的な範囲、構文
的な書換え規則、意味的な整合判定処理に基づいて判定
が行われ、解析途中の結果である部分的な文の候補(部
分文候補)とその意味表現、あるいは解析結果である文
候補とその意味表現が得られる。解析途中の部分文候補
は部分文候補バッファ6に記憶される。また、上述した
解析とともに各候補を構成する単語の尤度である距離、
類似度、確率などから、それぞれの部分文候補および文
候補の全体の評価値が評価関数から求められる。この評
価関数としては、単語尤度の重み付けを考慮した和、
関、対数値の和などを用いることが可能である。
【0025】構文・意味解析部3で利用する構文解析法
は、例えば冨田法(M.Tomita, "An Efficient Word Latt
ice Parsing Algorithm for Cotinuous Speech Recogni
tion", Proc.ICASSP'86, pp.1569-1572, Nov., 1986)を
基本として、時間的に離散なキーワードの時間的な接続
関係、構文的な接続関係の解析を行いながら、解析した
キーワード系列の意味表現を生成できるように拡張した
方法である。文法・辞書の構文的な情報は予めLRパー
ズ表に変換され、LRパーズ表を参照しながら高速にキ
ーワード系列の構文を解析することができる。LRパー
ズ表の参照と同時に時間的な関係の判定処理、意味表現
の生成処理が行えるようにLRパーズ表に処理参照機能
をもたすことができる。ここでは、この解析法をキーワ
ードラティスLR(KLLR)解析法と言うことにす
る。図3および図4に示す単語辞書及び文法規則から変
換したLRパーズ表が図5に示されている。このLRパ
ーズ表が図3及び図4に示される内容の代わりに文法・
辞書記憶部4に記憶される。その他に、アーリーのアル
ゴリズム、チャート法など、横型の構文解析法であれ
ば、トップダウン法およびボトムアップ法のいずれにも
利用することが可能である。また、単語の認識から構文
解析に亘ってパイプライン処理をさせる必要が無けれ
ば、縦型の構文解析法も採用できる。いずれにしても、
本実施例の構文・意味解析部3で従来の解析方式と異な
る点は、単語候補間の構文・意味解析において、時間的
に離散的なキーワード候補間の接続可能性をすべての候
補について並列に解析を進めていくことである。
【0026】文法・辞書記憶部4には、構文・意味解析
部3が受理する入力文の品詞と単語名の関係を表わす辞
書情報、品詞の系列の構文的な書換え規則、品詞の系列
の意味的な妥当性の判定処理及び意味表現の生成処理お
よび品詞間の時間的な関係の記述が記憶されている。こ
こでは、構文的な書換え規則は、文脈自由文法や正規文
法などで記述されている。図4は、同実施例に用いられ
る文法規則の一例を示している。同文法規則では、品詞
以外の意味情報を扱うことができるように拡張され、そ
の拡張に意味解析の処理手順が記述されている。また、
単語名は品詞と同一と見なし、構文・意味解析用の辞書
の記述及び構文・意味解析で単語名による解析も可能で
ある。ここで、KLLR解析法を用いる場合には、図3
および図4に示す辞書・文法情報は予め時間関係の判定
処理、意味表現生成処理の処理参照機能を持つ図5に示
すようなLRパーズ表に変換され、図1の文法・辞書記
憶部4に記憶する。いずれにしても、構文・意味解析の
方式に従って必要な文法・辞書情報を文法・辞書記憶部
4に記憶している。
【0027】構文・意味解析部3は、文始端判定部3
1、文候補解析部32、文始端判定部33および文候補
処理部34から構成される。文始端判定部31、文候補
解析部32および文終端判定部33は順次接続され、文
候補処理部34は文終端判定部33に接続されている。
文始端判定部31、文候補解析部32および文終端判定
部33は文法・辞書記憶部4に接続され、この文法・辞
書記憶部4から解析に必要な文法・辞書情報が供給され
る。また、文始端判定部31、文候補解析部32、文始
端判定部33および文候補処理部34は解析途中の部分
文候補を記憶している部分文候補バッファ6に接続さ
れ、このバッファ6を介して解析中の結果を記憶し、参
照する。
【0028】文始端判定部31は、音声認識部2から受
け取った単語候補が文法・辞書記憶部4に記憶されてい
る構文的な情報を参照して文の先頭となる単語であるか
否かの判定を行う。単語候補が文の先頭となり得る場合
には、部分文候補としてその意味表現を生成し、部分文
候補とその意味表現を部分文候補バッファ6に記憶す
る。KLLR解析法の場合には、文法から構成されるL
Rパーズ表を参照することで判定できる。図5は、文法
辞書4の内容に基づいて作成されるLRパーズ表であ
る。この表では、全認識単語の内の縦軸の状態番号0に
記述された単語、ここでは、HANB,CHEESB,
POTATO,COFFE,COLAが文の先頭単語と
なり得る単語である。文の先頭とならない単語候補に対
しては、ここでは何も行わない。
【0029】次に、文候補解析部32において、部分文
候補バッファ6の中の既に解析された部分文候補の内で
文始端判定部31で新たに作成された候補以外の全ての
候補と構文・意味解析部3に入力された単語候補の全て
との組合せに対して、構文・意味解析処理を行う。KL
LR解析法で言えば、先に述べたLRパーズ表を参照し
ながら部分文候補と単語の組合せに対して文法的に接続
可能であるかの判定を行い、更に、部分文候補を新たに
部分文候補バッファ6に加える。構文・意味解析と同時
に構文木や意味表現の生成および部分文候補の尤度の評
価を行い、部分文候補バッファ6に加える。
【0030】文終端判定部33において、部分文候補バ
ッファ6の部分文候補の全てに対して、各部分文候補が
文として成立しているか否かを文法辞書記憶部4を利用
して判定を下す。図5のLRパース表では、文の終端を
表わす記号($)を部分文候補に仮想的に接続し、文と
して受理されるかの判定を行う。受理されれば、その部
分文候補とし、この文候補の意味表現および文候補の評
価値を出力する。
【0031】文候補処理部34は、部分文候補バッファ
6に記憶されている候補の管理を行うもので、1つの入
力単語に対して文始端判定部31、文候補解析部32お
よび文終端判定部33による処理が終了した時点で部分
文候補バッファ6に記憶された部分文候補の各々の長さ
が最大文候補長SLよりも長い場合にその部分文候補を
削除する。これは、通常の発声では無いような長さの候
補の処理を行わないようにするためである。これによ
り、有限の大きさの部分文候補バッファ6を利用して、
連続的な構文・意味解析が可能となり、解析された意味
表現が逐次出力される。ここで、最大文候補長SLと
は、時間的な長さでも単語数としての長さでも可能であ
り、時間的な長さの場合には、部分文候補の始端から終
端までの時間長と最大文候補長SLとを比較し、また、
単語数による場合には、部分文候補を構成する単語数と
最大文候補長SLとを比較することにより部分文候補数
の削減を行う。
【0032】複数の文候補とその尤度および意味表現の
出力は音声言語解析装置や音声対話装置などに供され、
音声入力による対話や発声内容に基づく検索などの処理
が行われる。
【0033】次に、上記実施例の音声認識装置の動作を
説明する。
【0034】音声入力部1にマイクロホン等を介して音
声信号が入力されると、この音声信号はデジタル信号に
変換されたのち、FFT,フイルタ分析、LPC分析、
ケプストラム分析などの各処理に課せされ、音声特徴パ
ラメータの系列として出力される。ここでは、8mse
cの一定時間間隔毎に例えば16次元のフイルタバンク
出力の音声特徴パラメータが計算され、音声特徴パラメ
ータの系列が音声認識部2に出力される。
【0035】音声認識部2では、図3に示される認識対
象単語の音声認識辞書メモリ21の内容と音声特徴パラ
メータの系列との照合がワードスポッティング法に基づ
いて行われる。ワードスポッティング法は、図2に示さ
れるように連続する音声パターンVPの照合を連続的に
行う照合方法である。即ち、音声入力部1より入力され
る音声信号を分析することにより得られる特徴パラメー
タの系列の分析フレームの各々の終端点をEと仮定し、
照合単語を形成するための音声区間条件を満たす複数の
始端点からなる始端点候補区間をSと仮定する。これら
始端点で示される複数の仮の音声区間の特徴パラメータ
の系列を時間軸方向にリサンプル処理し、音声区間を異
にする所定の次元数の特徴ベクトルを終端点Eを基準と
して求める。このように終端点Eを時間軸方向に例えば
8msecだけシフトしながら順次連続的に特徴ベクト
ルを抽出し、各特徴ベクトルと音声認識辞書メモリ21
の内容との尤度をそれぞれ求めるとともに各特徴ベクト
ルについて求められた尤度系列から各カテゴリ毎に最大
尤度を示す音声特徴ベクトルと始端情報を求める。
【0036】このようにしてワードスポティングを行
い、図18に示すようなW1からW6の単語候補の時系
列(キーワードラティス)を得る。音声認識部2におい
て認識された単語候補は、構文・意味解析部3に出力さ
れる。
【0037】文始端判定部31は単語候補が構文的な情
報から文の先頭として出現し得る単語であるか否かの判
定を行う。図5のLRパーズ表では、全認識単語の内の
縦軸番号0に対して動作の記述された単語、ここでは、
HAMB,CHEESB,POTATO,COFFE,
COLAが文の先頭単語となり得る単語である。図18
の単語ラティスの例では、W1「2個」は先頭となり得
ない。W2「ハンバーガー」は先頭となり得るので、W
2を文頭とする解析スタックを生成し、更にW2を部分
文候補として部分文候補バッファ6に記憶する。この処
理解析の状態の例が図19に示されている。
【0038】文候補解析部32は、部分文候補バッファ
6の中の既に解析された部分文候補の内で文始端判定部
31で新たに作成された候補以外の全てと、構文・意味
解析部3に入力された単語候補の全てとの組合せに対し
て、時間的接続の判定と構文・意味解析処理を行う。
【0039】時間的な連接可能性の判定は各部分候補の
終端点と、各単語の始端点の情報を利用する。この場
合、各部分文候補の両点の時間的なある程度の重なり
と、ある程度の距離は許すものとし、例えば、重なりは
100msec、距離は400msecを設定する。勿
論、単語毎に値を設定することも考えられる。この時に
連接し得る単語間の距離をより適切に設定することで、
例えば、「あのー」や「えーと」などの無意味な語や、
非言語的な雑音、認識対象外の単語、言い淀み、それに
対する誤認識単語などを除いた形の部分文候補を生成し
て解析を進めるようにしている。図20では、SS1か
らSS5までの部分文候補に対して、W6「下さい」と
の接続可能範囲、W4では(S4,E4)、W5では
(S5,E5)の範囲にW6の始端が入ってくるかが判
定される。この例では、「下さい」、「コーヒー」、
「コーラ」が接続可能である。
【0040】時間的接続の判定について別の例で説明す
る。
【0041】図6は、音声入力として「ハンバーガー
と、えーとコーヒーを下さい」が入力され、音声認識部
2より単語候補としてW1からW6が与えられた場合を
示している。この場合、W1「ハンバーガー」に連続可
能な単語の始端は、W1「ハンバーガー」の終端を基準
にしてS1からE1の区間に存在するものとしている。
これは不要語や助詞などが発話される文の意味内容理解
に必要なキーワード(図示の例では、ハンバーガー、コ
ーヒー、下さい)以外の部分の時間長を考慮して決めら
れる。ここでは、S1からE1の区間にはW2「1
個」,W3「2個」,W4「コーヒー」の始端があるた
め、それぞれがW1「ハンバーガー」に時間的な関係か
ら連接可能であると判断される。文法的にも接続可能で
あると判断されれば、W1とW2、W1とW3,W1と
W4の部分文候補が生成される。
【0042】以上の例で説明した時間接続の判定機能を
KLLR解析法は備えているため従来の解析法では解析
できなかった時間的に離散なキーワードの系列が解析で
きるようになった。更に、従来の解析法では、解析スタ
ックが1つであったために入力全体の一部分だけを解析
することはできなかったが、文の始端となり得るキーワ
ードが検出される毎に解析スタックを生成することによ
り、入力の部分的な解析が可能となり、例えば、「あの
ー」や「えーと」などの無意味な語や非言語的な雑音、
認識対象外の単語、言い淀みなどを除いた構文・意味解
析が可能となっている。
【0043】構文・意味解析である文法規則による接続
可能の判定例として、図5のLRバーズ法を用いて「ハ
ンバーガー」「コーヒー」「下さい」の系列を処理する
場合の解析の状態の変化が図21に示されている。図5
の添字は図21の処理番号を示している。LRパーズ表
のSnは状態番号nにシフトすること、rmは文法規則
mを利用してリデュースすることを示している。解析進
行に従って意味表現が生成され、更に、入力単語の尤度
から部分文候補の尤度を求めている。ここでは、尤度の
評価については述べず、構文意味解析の処理を詳細に説
明する。
【0044】図4の文法では、文法規則の拡張項に意味
表現生成の処理が書かれている。X0は文法適用後に生
成される意味表現を表わし、文法9)の<ITEM
>::=<FOOD>の場合、X0=ms(X1,NO
NUM)はFOODの品物のスロットを個数が未定で生
成することを示している。また、mf()はフレームの
生成を示している。ここで、フレームとは、構文的に文
となるものの意味表現を表わし、スロットとは、フレー
ムの構成要素を表わすものである。図21の例では、
(ORDER(HAMB NONUM)(COFFEE
NONUM))が生成され、「個数未定のハンバーガ
ーと個数未定のコーヒーを注文する」という意味内容を
表現している。
【0045】上記の例では、「ハンバーガー」「コーヒ
ー」「下さい」の1つの系列のみについて説明したが、
例えば、図20のような場合には、解析中の部分文候補
SS1からSS9までそれぞれに同様の処理を行い、そ
れぞれの文候補について意味表現が得られる。
【0046】上記の構文・意味解析の後、文終端判定部
33は、部分文候補バッファ6の部分文候補の全てに対
して、各部分文候補が文として成立しているか否かを文
法辞書4を利用して判定を下し、文として成立している
ならば、判定結果である文候補尤度および意味表現を出
力する。
【0047】ここで、文法の曖昧性により、その候補が
次のフレーム以降に出現する単語を用いて更に解析を進
める可能性がある場合には、元の候補を複製して部分文
候補バッファ6に残される。
【0048】また、文終端判定部33では、それぞれの
部分文候補が文法的に完全な文としてなるか否かの判定
を行う。KLLR解析法の場合には、それぞれの部分文
候補に文種端の記号($)を接続し、LRパーズ表に従
って解析し、文として成り立つことを表わすaccのア
クションを得た場合に、完全な文であると判定する。こ
の処理を連続的に行うことにより出力として文として成
立した文候補とその意味表現および尤度が連続的に出力
され、ラティスの形で複数の文の情報を出力することに
なる。
【0049】次に、部分文候補バッファ6に残された部
分文候補全てに対して、文候補処理部34は、例えば、
予め決まった時間の長さLMAX以上の部分文候補を部
分文候補バッファ6から削除する。これにより、以後に
認識される単語候補が連接し得ない部分文候補を削除す
ることができ、この削除が有限の記憶領域の部分文候補
バッファ6の下で連続的に行うことができる。長さとし
て最大の単語数も可能である。
【0050】このようにして、従来の方法では克服が難
しかった雑音、無意味な語、単語の沸き出し、無音区
間、連続文に対処することが可能となり、単語ラティス
を構文的および意味的に解析して、図20の例では、文
候補S1からS9が得られることになる。
【0051】次に、評価関数の例を図12(a)に示す
ような単語列の場合について説明する。この例では、
「ハンバーガー」の尤度がLF1 ,継続時間がt1 ,更
に「コーヒー」、「3つ」、「下さい」の尤度と継続時
間がそれぞれLF2 ,t2 ,LF3 ,t3 ,LF4 ,t
4 である。更に、文の始端である「ハンバーガー」の始
端から文の終端である「下さい」の終端縁までの文の継
続時間がT4であり、単語数Nが4である。図12
(b)に示す例では、(LF1 +LF2 +LF3 +LF
4 )/4+α*(t1 +t2 +t3 +t4 )/T4 が文
の尤度TLF4 となる。ここで、(Σti)/TN の項
は時間的な文の継続時間に対する単語の継続時間の比を
表わし、文を構成する単語が互いに離れる度合が大きい
と小さくなり、文中に不要な語が全く無い場合に最大値
の1になるもので、文を構成する単語間の時間的関係の
評価に用いられ、係数αによる重み付けがなされてい
る。この係数αは実験的に最適な値が決められ、例えば
発声して単語区間が指定された学習用データを用い、最
尤推定法やニューラルネットなどの方式で最適な係数を
決定することができる。
【0052】更に、別の評価関数の例が図13に示され
ている。この例では、認識対象外の区間との尤度をx評
価に含めるものであり、その方式は、HMM(Hidden M
arkov Model )を用いた場合は、文献(J.Wilpon, “Im
provements and Applicationfor Key Word Recognition
using Hidden Markov Modeling Techniques",ICASS9
1, 309-312,Nov,1991 )に詳しい。図13(b)では、
認識対象単語系列の尤度LFi,i+1と対象外区間の
尤度LFi’との重み付けβにより統合して評価値とす
る評価関数を用いたものである。更に、重み付けβは、
個々の区間毎に隣接する単語名などの条件により個別に
設定することも可能である。いずれの実施例において
も、複数の対象単語と対象外の区間の尤度、継続時間の
一部あるいは全体及びそれらの相互関係に基づき評価を
行って、発声中の対象となる単語を正確に得ることを目
標としている。
【0053】また、前述したように単語候補の時間的な
連接関係を調べると同時に部分文候補が最後に解析に利
用した単語と、構文、意味解析部3に入力された現在解
析中の単語を用いた単語組文法(word pair grammar )
を構文・意味解析と同時に適用することで解析に必要な
計算量の削減が可能である。その構成例が図23(a)
に示されている。単語組判定部34は文候補解析部32
の前であり、文候補解析の前に現在解析の対象となって
いる単語と部分文候補バッファ6に記憶されているそれ
ぞれの部分文候補の最後の単語との関係を次に述べる単
語組文法を用いて判定する。ある部分文候補について、
判定の結果により接続する場合には、文候補解析部32
により解析が行われる。また、判定の結果により接続し
ない場合には、文候補解析を行わずに文終端判定を行う
ようにする。この処理をすべての部分文候補について行
う。単語組文法による判定は文候補解析部32の判定よ
りも簡単な処理で可能なために不必要な文候補解析の削
減が可能となり、構文・意味解析の処理をさらに効率よ
く行うことが可能となる。
【0054】図14は、単語組文法の例を示す。例え
ば、%xoffは、単語の系列の中に単語名がLEFT
RIGHT・・・の組合せで現われた場合にその系列
の解析を中止することを示している。図15は、図14
に示した規則を用いた例を示す。丸数字1の%xoff
では、「ハンバーガー」と「ハンバーガー」など同一の
品名は連続しない、丸数字3の%xoffでは、「1
個」と「1個」や「2個」などの個数は連続しない、丸
数字4の%xclrと%xonrでは、「1個」「ず
つ」、「4個」「ずつ」など個数のみが「ずつ」に連続
することを示している。この文法を用いて、例えば、図
23(b)のような文法と辞書の場合に入力として「ハ
ンバーガーとハンバーガーを下さい」のような注文は一
般的にはないので、図15の丸数字1のような文法が有
効となる。このような単語組文法が使用できない場合に
は、個別の規則を文法中に書く必要があり、文法が複雑
なものとなる。
【0055】更に、認識対象単語に日本語の形態素解析
で一般的な左右の連続性を与え、予めその属性に従って
記述した連接バッファを参照し、単語同士の連接可能性
を判断することも可能である。図16(a)に2単語の
連接を考慮した場合の連接バッファが示されている。こ
のバッファは、左単語名、右単語名、左端点位置、右端
点位置、単語の連接の結合度関数、左単語の尤度の閾
値、右単語の尤度の閾値が1つの項目となり、それぞれ
の単語の組合せについて記述されている。また、図16
(b)は、図16(a)の連接バッファを用いた場合の
判定処理を示している。この例では、「ハンバーガー」
の単語の処理を行っている。例えば、「ハンバーガー」
と「1個」の場合には、「1個」をNUM(個数)に属
する単語で、「ハンバーガー」の右端点を基準にして
(−5,40)の区間で結合度関数P1で連接し、それ
ぞれ「ハンバーガー」が0.8、「1個」が0.6以上
の尤度が必要であることが図16(a)のバッファに表
現されている。入力の「ハンバーガー」が尤度0.84
であり、「1個」が尤度0.65であった場合に、それ
ぞれの尤度は尤度の閾値以上であり、「ハンバーガー」
の右端点を基準にして(−5,40)の区間内に「一
個」の左端点が入っているので、この「ハンバーガー」
と「1個」は連接可能である。更に、結合度関数P1に
基づいて「一個」の結合度を求めると、この結合度はP
11であり、「ハンバーガー」と「一個」の単語列の尤
度は(0.84+P12*0.7)/2となる。ここ
で、1/2は単語数2による平均化であり、図12
(b)や図13(b)の第1項と同等のものとなる。こ
のようにして、単語の連接の判定で連接の可/不可だけ
でなく、2単語の結合度を考慮して、評価関数に単語間
の時間的間隔と単語の組合せを考慮することが可能とな
る。更に、図4及び図5に示すような文法情報に基づい
て解析する際に個々のの文法規則毎に結合関数を定め、
評価関数に組み込むことが可能である。
【0056】このように、2単語の時間的関係のみに限
定せずに接続の判定を行う単語名に存在した時間離散な
単語間の結合度や連接区間を用いることにより、無意味
な語や非言語的な雑音、認識対象外の単語、言い淀み、
認識単語などを除いた部分文候補の解析が可能となるば
かりでなく、部分文候補の局所的な特徴、例えば、「ハ
ンバーガー」「2個」の単語列に比べて「ハンバーガ
ー」「コーヒー」の方が単語の間で言い淀むことが多い
現象や、「ハンバーガー」「下さい」、「ハンバーガ
ー」「いりません」などの処理を示す語(「下さい」、
「いりません」)の前には言い淀むことが少ないなどの
現象を考慮して部分文候補の尤度を評価することが可能
となり、精度の高い解析が可能となる。また、評価値の
高い複数の部分文候補のみを処理すること(ビームサー
チ法)により、精度を落とさずに処理の削減が可能とな
る。
【0057】尚、ここでは、左単語を基準として右単語
の接続範囲を限定したが、右単語を基準にすることも可
能である。また、2単語の場合について説明したが、複
数の単語の関係を考慮して評価できることは言うまでも
ない。
【0058】また、部分文候補の爆発、即ち候補の数が
極端に増加することを抑え、計算量を少なくするために
全ての部分文候補に何らかの評価関数を適用して評価を
行い、その結果によりソートして、予め定めた候補(ビ
ーム幅)に外れる評価の低いものを枝刈りする処理は、
次のフレーム以降の入力を使って認識された単語との解
析処理に利用される。
【0059】ここで、図7は構文・意味解析部3で処理
されるデータの時間的な対応を概念的に示している。同
図において、VPは時間とともに変化する入力音声エネ
ルギー、FPが現在の解析時点,FUが最小の解析単位
であるフレームの長さである。また、W1からW2は現
時点で認識された単語候補、C1からC8は現在解析中
の部分文候補,A1からA5は文として成立して出力さ
れる処理済みの部分文候補である。図7において、例え
ば、単語候補W1が文の始端となり得る単語であれば、
その単語W1を先頭とした新しい部分文候補C9が生成
される。また、部分文候補C6と単語候補W3が構文・
意味解析の結果、接続されると判定されるならば、その
部分文候補C6は複製され、部分文候補C10として生
成される。更に、その部分文候補C10の最後の単語候
補W3が文の終端となり得るものならば、部分文候補C
10は複製され、文候補A6として出力されるようにな
る。尚、同図中のCRは解析時点FPを起点とした部分
文候補の存在範囲であり、終端点がCRから外れた部分
文候補は削除される。現時点で認識された単語候補W1
からW3に対する全ての解析が終ったならば、解析時点
FPを次処理のため1だけインクリメントされる。
【0060】次に、図8に示すように「ハンバーガーと
コーヒー下さい。あ、それとポテトも追加して」と、2
つの文を連続して発声し、文頭に雑音が混入したような
場合を説明する。
【0061】この場合、音声認識部2において、認識さ
れた単語候補としてW1からW11が与えられたものと
し、これら単語候補W1からW11は、構文・意味解析
部3で上述した方式に従って構文・意味解析される。即
ち、まず、文始端判定部31で、各単語候補について構
文的な情報であるLRパーズ表から文の先頭として出現
し得る単語であるか否かが判定される。最初に「ハンバ
ーガー」W2が該当する。次に、「ハンバーガー」W2
に連接可能な単語の始端が調べられる。この場合、「コ
ーヒー」W4,「コーラ」W5および「下さい」E6が
該当するものとすると、部分文候補としてS1、S2お
よびS4が生成される。次に、分の先頭として出現し得
る単語として「コーヒー」W4が該当すると、今度は
「コーヒー」W4に連接可能な単語の始端が調べられ、
部分文候補S3が生成される。以下同様にして部分文候
補S5およびS6が生成される。
【0062】その後、このような複数の部分文候補につ
いて単語の終端が調べられ、候補文が生成される。これ
らの構文の内の最終的候補の選択は、文候補解析部3の
出力を図示しない音声言語処理装置に与え、ここで音響
的な特徴、文候補の持つ尤度、文脈情報などの様々な情
報を利用することにより実現できる。
【0063】従って、このようにすれば、無限長を持つ
音声入力に対しても連続的に構文・意味解析を行い、文
候補を抽出することで、解析された文候補は、ラティス
形式で連続的に出力できるようになり、入力音声系列自
体の本来の意味とは無関係に構文・意味解析の前に予め
区切ることなく、文法的および意味的な制約を利用して
入力系列に対する文単位の句切りを連続的に行うことが
可能となる。
【0064】尚、このように無限長を持つ音声入力に対
して連続的に構文・意味解析を行い、文候補を抽出する
ことになると、連続的に出力される文候補を記憶するた
めの記憶領域の有限性の問題が発生するが、現在の対話
の流れから関連が無いと思われるような、例えば、10
分間前に発話された文候補は強制的に捨てると言う文候
補を残すためのある種の境界を設定するようにすれば問
題は回避できる。
【0065】また、図9のタイムチャートに示すように
音声の入力aから単語の終端同期による認識及び入力単
語終端同期の構文・意味解析bを1フレーム毎にパイプ
ライン的に進めるようにすれば、音声入力から文解析結
果を出力するまでの時間的な遅延を最小に抑えることが
できる。その遅延の最小はフレーム分の時間(例えば、
8msec)である。
【0066】次に、図10を参照してこの発明の他の実
施例を説明する。
【0067】この実施例によると、音声認識部12に接
続される構文・意味解析部131、文候補解析部13
2、文終端判定部133および文候補処理部134以外
に単語予測部135が設けられている。
【0068】文始端判定部131、文候補解析部13
2、文終端判定部133および文候補処理部134は先
の実施例において既に説明したものと同じであり、単語
予測部135は部分文候補バッファ6に記憶されている
それぞれの部分文候補に接続可能な単語を予測し、予測
された単語だけを音声認識部12で認識する。例えば、
処理の開始時点では、文始端となる単語だけを認識す
る。図4の文法の例では「ハンバーガー」「チーズバー
ガー」「ポテト」「コーヒー」「コーラー」が最初の認
識対象単語となる。この場合には、図5のLRパーズ表
の状態番号0が処理の開始状態を表わし、LRパーズ表
を参照して「ハンバーガー」「チーズバーガー」「ポテ
ト」「コーヒー」「コーラー」だけが認識対象単語であ
ることが分かる。また、図4の文法では、部分文候補の
終端の単語がNUMである場合には、次は、FOOD、
DRNK,VPであり、NUMが続くことはない。これ
は、図5のLRパーズ表では、状態番号2に対応する。
そこで、部分文候補の終端の単語がすべてNUMである
場合、即ち、状態番号2では、ONE,TOW,THR
EEの合計6単語の照合を行う必要がない。このように
して、単語予測部135により解析中の部分文候補と文
法知識を利用して次に出現可能な単語を予測して、音声
認識部2を制御することにより認識単語数を削減して、
計算量を軽減することができる。
【0069】図11は、音声の入力a、単語の終端同期
による認識および入力単語終端同期の構文・意味解析
b、単語予測cを1フレーム毎にパイプライン的に進め
るようにした処理のタイムチャートを示し、単語予測機
能を組み込んでもパイプライン的に処理が可能であり、
音声入力から文解析結果を出力するまでの時間を短縮す
ることができる。
【0070】
【発明の効果】以上に述べたように、本発明によれば、
入力される音声の発話を解釈し、意味表現を取り出すた
めに必要な情報の性質を充分に考慮することで、例えば
「あの−」「ええと」などのような無意味な語を発声し
たり、文中の間(無音区間)、言い淀みや省略などのゆ
れを含む自然な発話に対するロバストな音声認識を実現
できることになり、実際場面での人間と機械の自然な発
話について対応できることから、マンマシン・インタフ
ェースの飛躍的な向上も期待できる。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】音声認識部の出力例を示す説明図、
【図3】単語辞書および単語の接続可能な範囲を示す
図。
【図4】意味解析処理を含む文法規則を示す図。
【図5】図3及び図4に示す単語接続可能範囲および文
法規則のLRパーズ表。
【図6】単語候補の時系列(単語ラティス)を示す図。
【図7】構文・意味解析部により処理されるデータを示
す図、
【図8】構文解析の具体例を説明するための図。
【図9】音声認識および構文・意味解析をパイプライン
的に処理するタイムチャートを示す図。
【図10】本発明の他の実施例に従った音声認識装置の
概略構成を示す図。
【図11】図10に示す他の実施例の音声認識および構
文・意味解析をパイプライン的に処理するタイムチャー
トを示す図。
【図12】評価関数を示す図。
【図13】他の評価関数を示す図。
【図14】単語組文法の規則を示す図。
【図15】図14の単語組文法の規則を用いて作成した
文法を示す図。
【図16】2単語の連接を考慮した連接バッファおよび
この連接バッファ用いてた判定処理を示す図。
【図17】文および部分文の例を示す図。
【図18】入力ラティスを示す図。
【図19】解析処理を示す図。
【図20】他の解析処理を示す図。
【図21】単語系列を処理するときの解析の状態変化を
示す図。
【図22】意味表現の形式を示す図。
【図23】他の実施例に従った音声認識装置の概略構成
を示す図。
【符号の説明】
1…音声入力部、2…音声認識部、3…構文・意味解析
部、4…文法・辞書記憶部、6…部分文候補バッファ、
21…音声認識辞書メモリ、31…文始端判定部、32
…文候補解析部、33…文終端判定部、34…文候補処
理部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を入力する音声入力手段と、 前記音声入力手段より入力された音声信号を分析し音声
    特徴パラメータの時系列を求め、この時系列から抽出さ
    れる音声特徴ベクトルと予め用意された認識対象単語と
    を照合して単語候補を時系列として出力する音声認識手
    段と、 前記音声認識手段より時系列として出力される各単語候
    補をキーワードとして構文の制約に基づいて構文解析を
    行い文候補を生成する構文解析手段と、 を具備したことを特徴とする音声認識装置。
  2. 【請求項2】 時系列で出力される単語候補は、時間的
    に離散的なキ−ワ−ドのラティス表現とすることを特徴
    とする請求項1記載の音声認識装置。
  3. 【請求項3】 構文の制約と解析中の部分文候補に基づ
    いて出現可能な単語候補を予測して次の入力音声の認識
    処理に利用することを特徴とする請求項1記載の音声認
    識装置。
JP4184220A 1991-08-13 1992-07-10 音声認識装置 Pending JPH05197389A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP4184220A JPH05197389A (ja) 1991-08-13 1992-07-10 音声認識装置
US07/928,417 US5457768A (en) 1991-08-13 1992-08-12 Speech recognition apparatus using syntactic and semantic analysis
DE69225173T DE69225173T2 (de) 1991-08-13 1992-08-13 Spracherkennungsgerät
EP92307414A EP0527650B1 (en) 1991-08-13 1992-08-13 Speech recognition apparatus

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3-203012 1991-08-13
JP20301291 1991-08-13
JP4184220A JPH05197389A (ja) 1991-08-13 1992-07-10 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05197389A true JPH05197389A (ja) 1993-08-06

Family

ID=26502372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4184220A Pending JPH05197389A (ja) 1991-08-13 1992-07-10 音声認識装置

Country Status (4)

Country Link
US (1) US5457768A (ja)
EP (1) EP0527650B1 (ja)
JP (1) JPH05197389A (ja)
DE (1) DE69225173T2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115093A (ja) * 1994-10-18 1996-05-07 Kokusai Denshin Denwa Co Ltd <Kdd> 終話検出方法及び装置並びに連続音声認識方法及び装置
US6169972B1 (en) 1998-02-27 2001-01-02 Kabushiki Kaisha Toshiba Information analysis and method
JP2003316388A (ja) * 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
JP2006251545A (ja) * 2005-03-11 2006-09-21 Fujitsu Ltd 音声対話システム及びコンピュータプログラム
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2015038710A (ja) * 2013-08-19 2015-02-26 株式会社東芝 方法、電子機器およびプログラム
WO2015132829A1 (ja) * 2014-03-07 2015-09-11 パナソニックIpマネジメント株式会社 音声対話装置、音声対話システムおよび音声対話方法

Families Citing this family (190)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JP3601074B2 (ja) * 1994-05-31 2004-12-15 ソニー株式会社 信号処理方法及び信号処理装置
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
SE514684C2 (sv) * 1995-06-16 2001-04-02 Telia Ab Metod vid tal-till-textomvandling
JPH0916602A (ja) * 1995-06-27 1997-01-17 Sony Corp 翻訳装置および翻訳方法
US6173261B1 (en) * 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
US5758319A (en) * 1996-06-05 1998-05-26 Knittle; Curtis D. Method and system for limiting the number of words searched by a voice recognition system
AU723274B2 (en) * 1996-08-29 2000-08-24 Bcl Computers, Inc. Natural-language speech control
US5991712A (en) * 1996-12-05 1999-11-23 Sun Microsystems, Inc. Method, apparatus, and product for automatic generation of lexical features for speech recognition systems
EP0849723A3 (en) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6038531A (en) * 1997-01-30 2000-03-14 Seiko Epson Corporation Similar word discrimination method and its apparatus
JPH1152979A (ja) * 1997-08-08 1999-02-26 Fujitsu Ltd 順序データの音声認識装置
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6272455B1 (en) * 1997-10-22 2001-08-07 Lucent Technologies, Inc. Method and apparatus for understanding natural language
US6480819B1 (en) * 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
EP1224569A4 (en) 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
DE19937490B4 (de) * 1999-08-07 2018-11-29 Volkswagen Ag Verfahren und Vorrichtung zur Eingabe von Steuerungsbefehlen für Komfortgeräte, insbesondere in Kraftfahrzeugen
US6681206B1 (en) 1999-11-05 2004-01-20 At&T Corporation Method for generating morphemes
US7085720B1 (en) 1999-11-05 2006-08-01 At & T Corp. Method for task classification using morphemes
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
ATE405918T1 (de) * 1999-12-20 2008-09-15 British Telecomm Das lernen von dialogzuständen und sprachmodellen des gesprochenen informationssystems
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
US7370086B2 (en) 2000-03-24 2008-05-06 Eliza Corporation Web-based speech recognition with scripting and semantic objects
AU2001250050A1 (en) * 2000-03-24 2001-10-08 Eliza Corporation Remote server object architecture for speech recognition
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
JP4105841B2 (ja) 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
JP2002023783A (ja) * 2000-07-13 2002-01-25 Fujitsu Ltd 対話処理システム
US7158935B1 (en) 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
IL140673A0 (en) * 2001-01-01 2002-02-10 Poly Information Ltd A method and system for improved speech recognition
US6751591B1 (en) 2001-01-22 2004-06-15 At&T Corp. Method and system for predicting understanding errors in a task classification system
DE10115051A1 (de) * 2001-03-27 2002-10-10 Bosch Gmbh Robert Vorrichtung und Verfahren zur Spracherkennung
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
GB2384901B (en) 2002-02-04 2004-04-21 Zentian Ltd Speech recognition circuit using parallel processors
US7805302B2 (en) * 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
WO2004003887A2 (en) * 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
JP4267385B2 (ja) * 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
US7415413B2 (en) * 2005-03-29 2008-08-19 International Business Machines Corporation Methods for conveying synthetic speech style from a text-to-speech system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9043209B2 (en) * 2008-11-28 2015-05-26 Nec Corporation Language model creation device
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
CN102012900B (zh) * 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130073286A1 (en) * 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9158760B2 (en) * 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10354677B2 (en) * 2013-02-28 2019-07-16 Nuance Communications, Inc. System and method for identification of intent segment(s) in caller-agent conversations
US9786269B2 (en) 2013-03-14 2017-10-10 Google Inc. Language modeling of complete language sequences
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9911358B2 (en) 2013-05-20 2018-03-06 Georgia Tech Research Corporation Wireless real-time tongue tracking for speech impairment diagnosis, speech therapy with audiovisual biofeedback, and silent speech interfaces
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
KR20150145024A (ko) * 2014-06-18 2015-12-29 한국전자통신연구원 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN107679033B (zh) * 2017-09-11 2021-12-14 百度在线网络技术(北京)有限公司 文本断句位置识别方法和装置
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
US10832658B2 (en) * 2017-11-15 2020-11-10 International Business Machines Corporation Quantized dialog language model for dialog systems
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
US10665228B2 (en) 2018-05-23 2020-05-26 Bank of America Corporaiton Quantum technology for use with extracting intents from linguistics
KR20200048976A (ko) 2018-10-31 2020-05-08 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111090411A (zh) * 2019-12-10 2020-05-01 重庆锐云科技有限公司 一种基于用户语音输入的共享产品智能推荐系统及方法
US11934403B2 (en) * 2020-05-18 2024-03-19 Salesforce, Inc. Generating training data for natural language search systems

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US4783809A (en) * 1984-11-07 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Automatic speech recognizer for real time operation
JPH01279368A (ja) * 1988-04-30 1989-11-09 Sharp Corp キャラクタデータの転送方式
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115093A (ja) * 1994-10-18 1996-05-07 Kokusai Denshin Denwa Co Ltd <Kdd> 終話検出方法及び装置並びに連続音声認識方法及び装置
US6169972B1 (en) 1998-02-27 2001-01-02 Kabushiki Kaisha Toshiba Information analysis and method
JP2003316388A (ja) * 2002-04-22 2003-11-07 Toshiba Tec Corp 音声入力装置及びその方法並びに音声入力プログラム
JP2006251545A (ja) * 2005-03-11 2006-09-21 Fujitsu Ltd 音声対話システム及びコンピュータプログラム
JP4667085B2 (ja) * 2005-03-11 2011-04-06 富士通株式会社 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP2008176202A (ja) * 2007-01-22 2008-07-31 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2015038710A (ja) * 2013-08-19 2015-02-26 株式会社東芝 方法、電子機器およびプログラム
WO2015132829A1 (ja) * 2014-03-07 2015-09-11 パナソニックIpマネジメント株式会社 音声対話装置、音声対話システムおよび音声対話方法
JPWO2015132829A1 (ja) * 2014-03-07 2017-03-30 パナソニックIpマネジメント株式会社 音声対話装置、音声対話システムおよび音声対話方法

Also Published As

Publication number Publication date
EP0527650A3 (en) 1993-07-21
US5457768A (en) 1995-10-10
DE69225173D1 (de) 1998-05-28
EP0527650A2 (en) 1993-02-17
EP0527650B1 (en) 1998-04-22
DE69225173T2 (de) 1998-10-29

Similar Documents

Publication Publication Date Title
JPH05197389A (ja) 音声認識装置
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN109410914B (zh) 一种赣方言语音和方言点识别方法
US8990084B2 (en) Method of active learning for automatic speech recognition
EP0535146B1 (en) Continuous speech processing system
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US5799276A (en) Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US20030216912A1 (en) Speech recognition method and speech recognition apparatus
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
US20050038647A1 (en) Program product, method and system for detecting reduced speech
US20040158464A1 (en) System and method for priority queue searches from multiple bottom-up detected starting points
JP3444108B2 (ja) 音声認識装置
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
JP3766111B2 (ja) 音声認識装置
JP2965529B2 (ja) 音声認識装置
JPH06266386A (ja) ワードスポッティング方法
JP3727436B2 (ja) 音声原稿最適照合装置および方法
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
KR100366703B1 (ko) 인간 반응형 음성인식장치
AU2013375318B2 (en) False alarm reduction in speech recognition systems using contextual information
JPH08123479A (ja) 連続音声認識装置
JPH07261782A (ja) 音声認識装置
JPH0981185A (ja) 連続音声認識装置