JP2007033901A - 音声認識システム、音声認識方法、および音声認識用プログラム - Google Patents

音声認識システム、音声認識方法、および音声認識用プログラム Download PDF

Info

Publication number
JP2007033901A
JP2007033901A JP2005217534A JP2005217534A JP2007033901A JP 2007033901 A JP2007033901 A JP 2007033901A JP 2005217534 A JP2005217534 A JP 2005217534A JP 2005217534 A JP2005217534 A JP 2005217534A JP 2007033901 A JP2007033901 A JP 2007033901A
Authority
JP
Japan
Prior art keywords
recognition
result
speech
recognition result
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005217534A
Other languages
English (en)
Inventor
Takeshi Hanazawa
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005217534A priority Critical patent/JP2007033901A/ja
Priority to CN200610107454A priority patent/CN100590711C/zh
Priority to US11/492,982 priority patent/US7809562B2/en
Publication of JP2007033901A publication Critical patent/JP2007033901A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

【課題】 クライアント端末装置の処理能力が小さくてもユーザの要求を満たす語彙を供給するようにする。
【解決手段】 第1音声認識部112Bは音声前処理部112Aより出力された音声特徴量に基づき、入力された音声を第1認識辞書113を用いて音声認識する。結果判定部115は第1音声認識部112Bにより音声認識された認識結果の信頼性を判定し、該認証結果を受理するか棄却するかを判定し、その結果、認証結果を棄却するものとした判定された場合には、通信部116は、他の音声認識手段としてのサーバ装置120からの認識結果を受信する。結果出力部11は受理された認証結果,又は通信手段116により受信したサーバ装置120からの認識結果を出力し、辞書更新制御部119は確定結果入力部118により入力された確定結果に基づき、第1認識辞書113を更新する。
【選択図】図1

Description

本発明は、音声認識システム、音声認識方法、および音声認識用プログラムに係り、特に、サーバ・クライアント型の音声認識システム、音声認識方法、および音声認識用プログラムに関する。
従来のサーバ・クライアント型の音声認識システム(以下、単に「音声認識システム」という)は、クライアント端末装置が比較的負荷の小さい音声認識処理行い、サーバ装置が負荷の高い音声認識処理を行うシステムであって、図8に示すように、通信網330を介して通信接続されたクライアント端末装置310とサーバ装置320から構築されている。
クライアント端末装置310は、ユーザからの音声を入力する音声入力部311と、入力された音声データを波形分析等の前処理する音声前処理部312と、前処理された音声データの内容認識を内部(クライアント側)で行うか外部(サーバ側)へ依存するかを切り替える切替え部313と、内部で内容認識する場合に作動する第1音声認識部314とおよび第1認識辞書315と、サーバ側と相互通信する場合の通信部316と、音声認識の結果を外部へ送信する認識結果出力部317とから構成されている。
又、サーバ装置320は、クライアント端末装置310はと相互通信する場合の通信部321と、音声認識する場合の第2音声認識部322および第2の認識辞書323とを備えている。この種の音声認識システムとしては、例えば後述する特許文献1,特許文献2等に、近似した内容の技術が開示されている。
このような構成を有する従来の音声認識システムでは、クライアント端末装置310及びサーバ装置320は、次のような動作行う。
即ち、クライアント端末装置310では、音声入力部311で音声データが入力されると、これに基づいて音声前処理部312が、入力された音声データに例えば、音声波形分析などの前処理を施す。次に、切替え部313は、前述した音声波形分析当の結果に基づいて作動し当該音声データの内容認識を第1音声認識部314に委託するか又はサーバ装置320が備えている第2音声認識部322に委託するかを選択する。
切替え部313は、第1音声認識部314を用いるものと選択した場合には当該第1音声認識部314が第1認識辞書315を用いて音声認識し、その認識結果を認識結果出力部317に出力する。一方、切替え部313が、第2音声認識部322を用いるものと選択した場合には前処理した音声データを通信部316から通信網330を介してサーバ装置320に送信する。
サーバ装置320は、通信部321がクライアント端末装置310から音声データを受信すると、直ちに第2音声認識部322が作動して受信した音声データを第2認識辞書323を用いて音声認識し、通信部321が音声認識結果を通信網330を介してクライアント端末装置310に返信する。クライアント端末装置310は、通信部317が音声認識結果を受信すると、認識結果出力部317がその結果をユーザに出力する。
特開2003−241796号公報 特開2004−133699号公報
しかしながら、上述した従来の音声認識システムでは、クライアント端末装置310において、音声認識に要する処理を低負荷に抑えるために第1認識辞書315の容量を小さく設定されているので、クライアント端末装置310で認識できる語彙は大幅に制限され、ユーザの発声内容によっては音声認識できない場合があるという問題点があった。
この場合、認識できない単語が存在した場合には、ユーザが目的に応じてクライアント端末装置310の第1認識辞書315に単語を追加していくという手法もあるが、このような作業はユーザに負担を強いることになると共に、単語を追加した際には、クライアント側の計算量が増加し、結果的に遅延などが発生するという不都合が生じる。
更に、上記従来例では、クライアント端末装置310はサーバ装置320側から受信した音声認識結果をユーザに出力するのみで、音声認識結果を蓄積することがないので、例えば、使用頻度の高い語彙(単語)あるいは最近使用した語彙を取得したいというユーザの要求を満たすことができないという不都合があった。
本発明は、かかる従来例の有する不都合を改善し、例えばクライアント端末装置の処理能力が小さくてもユーザの要求を満たす語彙を有効に供給する音声認識システム、音声認識方法、及び音声認識プログラムを提供することを、その目的とする。
上記目的を達成するため、本発明にかかる音声認識システムでは、ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて音声情報を一次認識する音声認識手段と、この音声認識手段による音声認識の一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定手段と、この認識結果判定手段で前記一次認識結果が棄却された場合に作動し前記音声認識手段に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する送受信手段と、前記認識結果判定手段から出力される一次認識結果又は前記送受信手段から得られる二次認識結果を外部へ出力する認識結果出力手段とを備えている。
更に本発明では、前述した認識結果出力手段から外部へ出力された前記一次又は二次認識結果に対する確定情報を入力する確定結果入力手段と、この確定された認識結果に基づいて前記認識辞書を更新する辞書構成制御手段とを備えている(請求項1)。
このため、本発明では、一次認識する音声認識手段の処理能力が小さい場合でも、辞書構成制御手段によって予め確定された認識結果を常に更新するように機能していることから、ユーザの目的に合った認識語彙を提供する事ができ、又、前述した認識辞書にない単語をユーザが発した場合でも前述した音声認識手段の一次認識結果を他の音声認識手段の有する音声認識機能によって容易に認識結果(二次認識結果)が得られるので、音声認識手段の処理能力が小さくて認識辞書にない単語をユーザが発声した場合でも認識することができ、更に、過去にサーバ側で処理された認識結果の単語あるいは単語列を辞書構成制御手段によって自動的に前述した認識辞書に追加できるので、認識辞書をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができる。
ここで、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存するために前述した認識結果判定手段に代えて、外部の他の判定システムに前述した一次認識結果を提示する認識結果提示手段と、前記他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを判定情報として取り扱う判定結果入力手段とを装備した構成としてもよい(請求項2)。
このようにしても前述した請求項1記載の発明と同等の機能を有するほか、更に外部の他の判定システム(例えばユーザ自身)により出される判定結果(指令)が入力された場合にこれを一次認識結果の内容に対する判定情報として取り扱うようにしたので、ユーザの確認により認識辞書の更新を行うことが可能となり、音声認識を行う際に処理効率がよい認識辞書を形成することができ、音声情報の処理に対する信頼性を確実に高めることができる。
更に、前述した音声認識手段を、ユーザから入力された音声を分析してその特徴量を抽出する音声前処理部と、この抽出された音声特徴量に基づいて前記音声の一次認識結果を出力する1次音声認識部とにより構成してもよい(請求項3)。このようにすると、音声認識手段による音声の一次認識を迅速に実行することができ、二次認識に際しても高精度に音声認識処理を実行することができる。
更に、前述した辞書構成制御手段が、前述した認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前述した音声認識動作の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する語彙削除機能を備えているように構成してもよい(請求項4)。このようにすることにより、前述した認識辞書の容量が小さくて音声認識手段による処理能力が小さくとも、一次認識結果をユーザの目的に合わせて迅速に出力することが可能となる。更に、当該一次認識結果を得るための認識辞書の構成情報として過去のユーザの使用履歴を用いるので、ユーザの嗜好に合わせた情報を取得することが可能となるという利点もある。
又、前述した辞書構成制御手段が、前述した認識辞書の更新に際しては当該更新する情報を前述した他の音声認識手段に送信する更新情報送信機能を備えた構成としてもよい(請求項5)。このようにすることにより、前述した他の音声認識手段における認識辞書を前述した音声認識手段に併設された認識辞書の内容を常時含んだ状態に設定しておくことができ、音声認識に際しての迅速なる対応が可能となるという利点がある。
ここで、前述した他の音声認識手段を、所定の音声認識機能を備えると共に通信回線で接続されたサーバ装置により構成してもよい(請求項6)。
又、本発明にかかる音声認識方法は、ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて音声情報を一次認識する音声認識工程と、この一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定工程と、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得工程と、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力工程とを備えている。更に本発明に係る音声認識方法は、前述した認識結果出力工程で外部へ出力した一次又は二次認識結果に対する確定情報を入力する確定結果入力工程と、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御工程とを備えた構成とした(請求項7)。
このため、本発明では、一次認識する音声認識手段の処理能力が小さいにもかかわらずユーザの目的に合った認識語彙を効率良く鹿も迅速に提供する事ができ、更に、過去にサーバ側で処理された認識結果の単語あるいは単語列を辞書構成制御手段によって自動的に前述した認識辞書に追加できるので、認識辞書をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができるという利点を備えている。
ここで、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存するために前述した認識結果判定工程に代えて、外部の他の判定システムに前述した一次認識結果を提示する認識結果提示工程と、前記他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力工程とを装備した構成としてもよい(請求項8)。このようにしても前述した請求項8記載の発明と同等の機能を有するほか、更に外部の他の判定システム(例えばユーザ自身)により出された判定結果(指令)を一次認識結果の内容に対する判定情報として入力するようにしたので、ユーザの確認による認識辞書の更新が可能となり、音声認識の処理効率のよい認識辞書を形成することができる。
又、上述した音声認識方法において、前述した辞書更新制御工程では、前述した認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する手順を備えているように構成してもよい(請求項9)。更に、上述した音声認識方法において、認識辞書更新工程が、前述した認識辞書の更新に際しては当該更新する情報を前記他の音声認識システムに送信する更新情報送信手順を備えた構成としてもよい(請求項10)。
更に、本発明にかかる音声認識用プログラムでは、クライアント側端末に入力されたユーザが発する音声情報を予め装備した認識辞書に基づいて一次認識する音声認識機能、この一次認識結果の信頼性を判定しこれに基づいて当該一次認識結果を受理するか棄却するかを判定する認識結果判定機能、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得機能、およびこの一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力機能を、更に、前記認識結果出力機能を実行しで外部へ出力した前記一次又は二次認識結果に対する確定情報が入力された場合にこれを取り込む確定結果入力機能、およびこの確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御機能を、前述したクライアント側端末が備えているにコンピュータに実行させるように構成したことを特徴とする(請求項11)。
このため、本発明では、一次認識する音声認識手段の処理能力が小さい場合でも、認識辞書更新機能によって予め確定された認識結果を常に更新されていることから、ユーザの目的に合った認識語彙を常時提供する事ができ、又、前述した認識辞書にない単語をユーザが発した場合でも前述した音声認識機能によって一次認識結果を他の音声認識システムの有する音声認識機能に依存して容易に認識結果(二次認識結果)が得られるので、音声認識機能の処理能力が小さくて認識辞書にない単語をユーザが発声した場合でも容易に認識処理することができ、更に、過去にサーバ側で処理された認識結果の単語あるいは単語列を認識辞書更新機能によって自動的に前述した認識辞書に追加できるので、認識辞書をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができる。
又、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存するために前述した認識結果判定機能に代えて、外部の他の判定システムに前述した一次認識結果を提示する認識結果提示機能,および前記他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを判定情報として取り扱う判定結果入力機能とを装備した構成としてもよい(請求項12)。
このようにしても前述した請求項11記載の発明と同等の機能を有するほか、更に外部の他の判定システム(例えばユーザ自身)により出される判定結果(指令)が入力された場合にこれを一次認識結果の内容に対する判定情報として取り扱うようにしたので、ユーザの確認による認識辞書の更新であることから、音声認識を行う際に処理効率がよい認識辞書を形成することができ、音声情報の処理に対する信頼性が確実に高められる。
ここで、上述した音声認識プログラムにおいて、前述した認識辞書更新機能が、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいてその語彙を削除する処理機能を含むように構成してもよい(請求項13)。又、上述した音声認識プログラムにおいて、前述した認識辞書更新機能が、前述した認識辞書の更新に際し、当該更新する情報を前記他の音声認識システムに送信する送信処理機能を含むように構成してもよい(請求項14)。
クライアント端末装置の処理能力が小さくてもユーザの要求を満たす語彙を供給することができる。
本発明は前述したように構成され機能するので、これによると、一次認識の処理能力が小さいクライアント端末装置又は音声認識手段等を装備したものであっても、認識辞書が予め確定された認識結果を常に更新するようになっていることから、常にユーザの目的に合った認識語彙を提供することが可能となる。
次に、本発明の実施形態を添付図面に基づいて説明する。
<第1の実施形態>
図1に、本発明に係る第1実施形態の音声認識システムの全体的な構成を示す。この図1における音声認識システムは、ユーザからの音声を入力し一次認識するクライアント端末装置110と、このクライアント端末装置110に通信網130を介して通信接続された音声認識にかかる二次認識結果を出力するサーバ装置(他の音声認識手段)120とから構築されている。
クライアント端末装置110は、ユーザからの音声を入力する音声入力部111と、入力した音声を予め装備した第1認識辞書(認識辞書)113に基づいて一次認識する音声認識手段112と、この一次認識の結果を受理するか棄却するかを判定する結果判定部(認識結果判定手段)115と、一次認識された音声データが棄却判定された場合に作動し前述したサーバ装置(他の音声認識手段)120に当該音声データを送信して一次認識を委託すると共にその結果を取得する通信部(送受信手段)116と、認識された結果を外部へ出力する結果出力部(認識結果出力手段)117とを備えている。
更に、このクライアント端末装置110は、出力された認識結果がユーザによって確定されその結果が入力された場合にこれを取り込む確定結果入力部(確定結果入力手段)118と、この確定された認識結果に基づいて前述した第1認識辞書(認識辞書)113を行進する辞書構成制御部(辞書構成制御手段)119とを備えている。
前述した音声データを一次認識する音声認識手段112は、入力された音声を分析しその特徴量を抽出する音声前処理部112Aと、この抽出された音声特徴量に基づいて前記音声データの一次認識結果を出力する1次音声認識部112Bとを備えた構成となっている。
ここで、クライアント端末装置110には、音声認識用プログラムをメモリ(図示せず)に記憶しておき、図示しないCPUがメモリに記憶されている音声認識用プログラムを実行することにより、音声前処理部112A、第1音声認識部112、結果判定部115、通信部116、結果出力部117、確定結果入力部118、及び辞書構成制御部119をそれぞれ機能させるように構成してもよい。
続いて、各構成部分の機能について説明する。
音声入力部111は、マイク等からなりユーザが発声した音声を受け付ける。音声前処理部(特徴量出力手段)112Aは、入力された音声を音響分析してその特徴を示す音声特徴量を取り出す。第1認識辞書(認識辞書)113は、図2に示すように、語彙(単語)とその語彙の読みとからなる辞書データが登録されている。
第1音声認識部(音声認識手段)112B、音声前処理部112Aにより取り出された音声特徴量に基づき、ユーザが発声した音声に対応する単語が第1認識辞書113に登録されているかを検索する。例えば、ユーザにより「メールアドレス」と発声された場合には、第1音声認識部112Bは、第1認識辞書113を検索し、音声前処理部112Aより入力された特徴量から、「メール」及び「アドレス」を第1認識辞書113から読み出し、これら「メール」及び「アドレス」の語彙をつなげた「メールアドレス」を結果判定部115に出力する。尚、第1音声認識部112Bは、該当する語彙を読み出すことができなかった場合には、その旨を結果判定部115に出力する。
結果判定部(結果判定手段)115は、第1音声認識部112Bから語彙が入力された場合には、入力された語彙を例えば尤度を算出し、尤度が高い場合にはユーザが要求する語彙であると判定しこの語彙を受理し、一方、尤度が低い場合には、ユーザが要求しない語彙であると判定して語彙を棄却する。例えば、第1認識辞書113に登録されていた「メールアドレス」の場合には、この語彙の尤度は高く判定されて受理される。一方、登録されていない「登録する」の場合には、第1音声認識部112Bが誤認識した例えば「変更する」という語彙を受けた場合には、この語彙は尤度が低く判定されて棄却される。
通信部(送受信手段)116は、第1音声認識部112Bから出力された語彙が結果判定部115に棄却された場合には、音声前処理部112Aが取り出した音声特徴量を通信網130を介してサーバ装置120に送信するとともに、サーバ装置120から通信網130介して音声認識結果を受信する。結果出力部(認識結果出力手段)117は、クライアント端末装置110またはサーバ装置120により認識したユーザが発声した音声の音声認識結果(一次又は二次認識結果)を外部出力する。
確定結果入力部(確定結果入力手段)118は、出力された認識結果を確定する要求をユーザから入力されると、その要求を辞書構成制御部(辞書構成制御手段)119に出力する。辞書構成制御部(辞書構成制御手段)119は、受けた要求に従って第1認識辞書114に新たに辞書データを登録するとともに、クライアント端末装置110の処理能力に応じた語彙数以上を超えた場合には、古いものから削除する(語彙削除機能の実行)。
これに対し、前述した他の音声認識手段であるサーバ装置120は、図1に示すように、通信部121と、第2認識辞書122と、第2音声認識部123とを備えている。通信部121は、通信網130を介してクライアント端末装置110から特徴量を受信するとともに、音声認識結果をクライアント端末装置110に送信する。第2認識辞書122は、前述したクライアント端末装置110が判定不可能とされた音声認識に対応する語彙(単語)とその語彙の読みとを有する辞書データが登録されている。又、第2音声認識部123は、クライアント端末装置110から受信した音声特徴量に基づき、ユーザが発声した音声に対応する単語を第2認識辞書122から読み出し音声認識を行い、その二次認識結果としてクライアント端末装置110側へ送り返すように機能する。
次に、本第1実施形態の全体的な動作を説明する。
図2において、ユーザから発せられた音声は、クライアント端末装置110の音声入力部111から入力される(ステップ151)。この入力された音声は音声前処理部112で音響分析されその特徴を示す特徴量が取り出される(ステップ152)。その後、第1音声認識部112Bは、第1認識辞書113を検索することにより、音声前処理部112Aが取り出した特徴量に基づき音声認識を行う(ステップ153:音声認識工程)。
例えば、ユーザにより「メールアドレス」と発声された場合には、第1音声認識部112Bは、第1認識辞書113を検索し、特徴量から「メール」及び「アドレス」を第1認識辞書113から読み出し、「メールアドレス」を結果判定部115に出力する。第1音声認識部112Bは、該当する語彙を読み出すことができなかった場合には、誤った語彙を結果判定部115に出力する。図3に第1認識辞書113に格納されている語彙の例を示す。
次に、判定結果部115は、入力された語彙について尤度を算出し、この語彙を受理するか棄却するか否かを判定する(ステップ154:認識結果判定工程)。判定結果部115は、入力された語彙の尤度が高く算出され、語彙を受理するもの判定した場合には(ステップ154;受理)、第1音声認識部114から入力された認識結果としての語彙を結果出力部117に出力し(ステップ155)、前述したステップ152に処理を移行する。一方、判定結果部115は、入力された語彙の尤度が低く算出され、語彙を棄却するもの判定した場合には(ステップ154;棄却)、音声前処理部112Aから音声特徴量を取得し、この音声特徴量を通信部116に出力する。通信部116は、入力された音声特徴量を通信網130を介して他の音声認識手段であるサーバ装置120の通信部121に送信する(ステップ156)。
サーバ装置(他の音声認識手段)120の通信部121は、クライアント端末装置110から音声特徴量を受信すると(ステップ157)、この音声特徴量を第2音声認識部123に出力する。次に、第2音声認識部123は、入力された音声特徴量に基づき、ユーザが発声した音声に対応する単語を第2認識辞書122から読み出し、音声認識する(ステップ158)。その後、第2音声認識部123は、音声認識して得た認識結果を通信部121に出力する。すると、通信部121は、通信網130を介してクライアント端末装置110の通信部116に認識結果を送信する(ステップ159)。
クライアント端末装置110の通信部116は、他の音声認識手段であるサーバ装置120から認識結果を受信すると(ステップ160:二次認識結果取得工程)、結果出力部117に出力し、結果出力部117は、この音声認識結果をユーザが認識可能な状態で出力する(ステップ161:認識結果出力工程)。その後、確定結果入力部118は、出力された認識結果を確定する要求をユーザから入力されると、その要求を辞書構成制御部119に出力する(ステップ162:確定結果入力工程)。辞書構成制御部119は、受けた要求に従って第1認識辞書113に新たに辞書データを登録するとともに、クライアント端末装置110の処理能力に応じた語彙数以上を超えた場合には、古いものから削除して第1認識辞書を更新し(ステップ163:辞書更新制御工程)、処理を終了する。
この第1実施形態によれば、クライアント端末装置110を構成する第1認識辞書113にない単語をユーザが発声した場合でも、サーバ装置120の音声処理した語彙を得ることができるので、クライアント端末装置110の処理能力が小さい場合でもユーザの目的に合った語彙を提供できる。
又、この第1実施形態によれば、クライアント端末装置110で認識できなかった場合には、より大語彙の第2認識辞書122を持つサーバ側(他の音声認識手段)で認識できる可能性が高いので、クライアント端末装置110の第1認識辞書113にない単語をユーザが発声した場合でも認識可能になる。
更に、この第1実施形態によれば、過去にサーバ装置120で処理された認識結果の単語あるいは単語列を自動的にクライアント端末装置110の第1認識辞書113に追加できるので、第1認識辞書113をユーザに合わせてカスタマイズする際に、ユーザの負担を小さく抑えることができる。
<第2の実施形態>
次に、図4に、本発明にかかる第2実施形態の全体的な構成を図4に示す。この図4に示す第2の実施形態は、前述した第1実施形態における音声認識システムと同様に、クライアント端末装置200と、このクライアント端末装置200に通信網130を介して通信接続された他の音声認識手段であるサーバ装置120とから構築されている。ここで、前述した第1に実施形態と同一に機能する同一の構成部材については同一の符号を用いることとする。
この第2実施形態におけるクライアント端末装置200では、前述した第1実施形態における音声認識システムで装備した結果判定部(認識結果判定手段)に代えて、外部の他の判定システムに前述した一次認識結果を提示する結果提示部(認識結果提示手段)205と、前述した他の判定システムにより成される前述した一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを判定情報として取り込む判定結果入力部(判定結果入力手段)206とを装備し、これによって、前述した一次認識結果を受理するか棄却するかの判定を外部の判定システムに依存することとした。この場合、外部判定システムについては、ユーザに依存するようにしてもよい。その他の構成は、図4に示すように、前述した第1実施形態における音声認識システム(図1参照)と同様となっている。
このようにしても前述した請求項1記載の発明と同等の機能を有するほか、更に外部の他の判定システム(例えばユーザ自身)により出される判定結果(指令)が入力された場合にこれを一次認識結果の内容に対する判定情報として取り扱うようにしたので、ユーザの確認により認識辞書の更新を行うことが可能となり、音声認識を行う際に処理効率がよい認識辞書を形成することができ、音声情報の処理に対する信頼性を確実に高めることができる。
ここで、クライアント端末装置200では、予め音声認識プログラムをメモリ(図示せず)に記憶しておき、図示しないCPUがメモリに記憶されている音声認識プログラムを実行することにより、音声認識手段112(音声前処理部112A、第1音声認識部112B)、結果提示部205、結果判定入力部206、通信部116、結果判定部115、結果出力部117、確定結果入力部118、及び辞書構成制御部119を機能させるように構成してもよい。
前述した結果提示部(認識結果提示手段)205は、前述した第1音声認識部112Bから出力される一次認識結果をユーザ(外部の判定システム)に認識可能な状態にして提示する。結果判定入力部(結果判定入力手段)206は、先に提示された一次認識結果としての語彙に対する結果の判定をユーザ(外部の判定システム)から入力される先に提示した一次認識結果に対する「受理するか棄却するか」の判定結果を取り込む。
ここで、前述した辞書構成制御部119は、第1認識辞書113を更新制御するためのものであって、例えば図5に示すように、単語、その読み、数値が最も大きいものほど最近使用したものであることを示す使用順序、及び使用頻度が記述された単語履歴データからなる単語履歴リスト212を有している。この辞書構成制御部119は、第1認証辞書113に新たに単語を登録するに際し、第1認識辞書113に登録されている単語が一杯で、第1認識辞書113を削除する場合には、単語履歴リスト113aの使用順序を示す数値が最も小さいものを(図5中では「番号」のもの)を削除してもよいし、また、使用頻度が最も少ないもの(図5中では「変更」のもの)を削除してもよい)。
辞書構成制御部119が第1認証辞書113に単語を登録した場合には、単語履歴リスト113aには、登録した単語の単語履歴データ中の使用順序が最も大きい数値が記述され、または、使用頻度が「00001」と記述される。ここで、辞書構成制御部119は、第1認識辞書113から削除した単語を単語履歴リスト113aからかならずしも削除する必要はない。従って、単語履歴リスト113aに登録されている単語の数は、第1認識辞書113に登録されている語彙数と同じかそれより多くなる。
次に、上記第2実施形態の動作を図6に基づいて説明する。
この第2の実施形態では、ユーザが音声を発声すると、クライアント端末装置200の音声入力部111は、その音声を入力し音声前処理部112Aに出力する(ステップ251)、音声前処理部112Aは、入力された音声を音響分析してその特徴を示す音声特徴量を取り出す(ステップ252)。その後、第1音声認識部112Bは、第1認識辞書113を検索することにより、音声前処理部112Aが取り出した音声特徴量に基づき音声認識を行う(ステップ253)。
例えば、ユーザにより「メールアドレス」と発声された場合には、第1音声認識部112Bは、第1認識辞書113を検索し、音声特徴量から、「メール」及び「アドレス」を第1認識辞書113から読み出し、「メールアドレス」を結果提示部205に出力する。第1音声認識部112Bは、該当する語彙を読み出すことができなかった場合には、誤った語彙を結果提示部205に出力する。
次に、結果提示部205は、入力された語彙を外部判定システム(例えばユーザ)に提示する(ステップ254:認識結果提示工程)。その後、結果判定入力部206は、先に提示し認識結果としての語彙に対する結果判定を外部判定システムから受け(判定結果入力工程)、この結果判定を結果判定部115に出力する。すると、結果判定部115は、入力された結果判定に従って先に提示した認識結果を受理するか棄却するかを判定する(ステップ255)。結果判定部115は、認識結果を受理するもの判定した場合には(ステップ256;受理)、第1音声認識部112Bから入力された語彙としての認識結果を結果出力部115に出力し、ステップ253に処理を移行する。
一方、結果判定部115は、認識結果を棄却するもの判定した場合には(ステップ255;棄却)、音声前処理部112Aに対して先に取得した音声特徴量を通信部116を介して他の音声認識手段であるサーバ装置120に向けて出力させる。
通信部116は、音声前処理部112Aから入力された音声特徴量を通信網130を介してサーバ装置120の通信部121に送信する(ステップ257)。
サーバ装置120の通信部121は、クライアント端末装置200から音声特徴量を受信すると(ステップ258)、この音声特徴量を第2音声認識部123に出力する。次に、第2音声認識部123は、入力された音声特徴量に基づき、ユーザが発声した音声に対応する単語を第2認識辞書122から読み出し、音声認識する(ステップ259)。その後、第2音声認識部123は、音声認識して得た認識結果としての語彙を通信部121に出力する。すると、通信部121は、通信網130を介してクライアント端末装置200の通信部116に送信する(ステップ260)。
クライアント端末装置200の通信部116は、サーバ装置120から認識結果を受信すると(ステップ261)、結果出力部117に出力し、結果出力部117は、この認識結果をユーザが認識可能な状態にして出力する(ステップ262)。その後、確定結果入力部118は、出力された認識結果を確定する要求をユーザから入力されると、その要求を辞書構成制御部119に出力する(ステップ263)。辞書構成制御部119は、単語履歴リスト113aを参照して、受けた要求に従って必要が有る場合には、第1認識辞書113に新たに辞書データを登録するとともに、クライアント端末装置200の処理能力に応じた語彙数以上を超えた場合には、古いものから削除して第1認識辞書を更新し(ステップ264)、処理を終了する。
この第2の実施形態によれば、前述した第1の実施形態の音声認識システムと同様な効果を有するとともに、更に、クライアント端末装置200の第1認識辞書113を構成するための情報として、辞書構成制御部119の単語履歴リスト113aに記述されている過去のユーザの使用履歴を用いるので、ユーザの嗜好に合わせた情報を取得することが可能となる。
第1及び第2実施形態の音声認識システムでは、クライアントからサーバへ送信する音声データとして音声前処理部112Aにおいて出力した音声特徴量が用いられているが、これ以外として、音声波形データをそのまま送信しても良い。
又、前述した第1実施形態の音声認識システムは、辞書構成制御部119および第1認識辞書113の代わりに、第2の実施形態の認識音声システムに使用されている辞書構成制御部119および第1認識辞書113を使用してもよい。
更に、上述した第2実施形態の音声認識システムにおいて、操作履歴として使用順序あるいは使用頻度の場合を説明したが、操作履歴はこれら2つに限らない。またこれらを単独で用いても良いし、組み合わせで用いてもよい。また、第1認識辞書113の語彙数の上限は処理能力に応じて設定すれば良く、環境によって負荷が変わる場合には上限を動的に変更しても良い。
<第3実施形態>
本発明に係る第3実施形態の音声認識システムでは、前述した第1又は第2の実施形態における音声認識システムを構成する辞書構成制御部119に、図7に示すような単語履歴リスト213を併設し、これに基づいて前述した辞書構成制御部119が第1認識辞書203の語彙を制御するという構成とした。この場合、本第3実施形態では、クライアント端末装置200の通信部116から単語履歴リスト213の情報をサーバ装置120に送信することにより、サーバ装置120が単語履歴リスト213の情報を受け取ることができるようになっている。従って、ユーザがその場でいなくても、またユーザの使用状況を別途モニタリングすることなく、ユーザがどのような入力履歴を持っていたかがわかる。
ここで、上述した図7に示した例は、携帯端末を用いた価格検索サービスを想定したもので、例えばテレビの購入に興味があるらしいことが容易に推測でき、例えばサーバを管理している企業側で新製品の情報を送付するなど、企業の販売促進活動に活用することが可能となる。また、このような情報を複数のユーザから集めることで顧客管理を行うことも可能になる。従来の方法では、顧客情報を得るために音声認識した結果を解析する必要があったが、本方式では単語履歴リスト113aを利用することで音声認識結果を解析する必要がなくなる。
この第3実施形態における音声認識システムでは、クライアント端末装置200の通信部から単語履歴リスト213を送信するものとしたが、ユーザの指定により送信しない設定とすることも可能である。また、音声認識時にサーバ装置120との通信を行うたびに送信するという設定にすることも可能である。
本発明にかかる音声認識システムによれば、携帯電話や携帯情報端末などの音声入力インタフェースといった用途に適用できる。
本発明に係る第1実施形態を示す全体的な構成図である。 図1における第1実施形態の動作を示すフローチャートである。 図1中に開示した第1認証辞書の構成例を示す説明図である。 本発明に係る第2実施形態を示す全体的な構成図である。 図4中に開示した単語履歴リスト及び第1認証辞書を示す説明図図である。 図4における第2実施形態の動作を示すフローチャートである。 本発明に係る第3実施形態における音声認識システムの辞書構成制御部が有する単語履歴リストを示す説明図である。 従来例を示す説明図である。
符号の説明
110 200 クライアント端末装置
111 音声入力部
112 音声認識手段
112A 音声前処理部
112B 第1音声認識部
113 認識辞書としての第1認識辞書
113a 単語履歴リスト
115 結果判定部(認識結果判定手段)
116 通信部(送受信手段)
117 結果出力部(認識結果出力手段)
118 確定結果入力部(確定結果入力手段)
119 辞書構成制御部(辞書構成制御手段)
120 サーバ装置(他の音声認識手段)
130 通信網
205 認識結果提示部(認識結果提示手段)
206 認識結果判定入力部(結果判定入力手段)

Claims (14)

  1. ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて一次認識する音声認識手段と、この音声認識手段による音声認識の一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定手段と、この認識結果判定手段で前記一次認識結果が棄却された場合に作動し前記音声認識手段に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する送受信手段と、前記認識結果判定手段から出力される一次認識結果又は前記送受信手段から得られる二次認識結果を外部へ出力する認識結果出力手段とを有し、
    前記認識結果出力手段から外部へ出力された前記一次又は二次認識結果に対する確定情報を入力する確定結果入力手段と、この確定された認識結果に基づいて前記認識辞書を更新する辞書構成制御手段とを備えたことを特徴とする音声認識システム。
  2. ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて一次認識する音声認識手段と、この音声認識手段による音声情報の一次認識結果を予め外部に設定した他の判定システムに提示する認識結果提示手段と、前記他の判定システムにより成された前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力手段と、前記判定結果が前記一次認識結果の棄却とされた場合に作動し前記音声認識手段に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する送受信手段と、前記認識結果判定手段から出力される一次認識結果又は前記送受信手段から得られる二次認識結果を外部へ出力する認識結果出力手段とを有し、
    前記認識結果出力手段から外部へ出力された前記一次又は二次認識結果に対する確定情報を入力する確定結果入力手段と、この確定された認識結果に基づいて前記認識辞書を更新する辞書構成制御手段とを備えたことを特徴とする音声認識システム。
  3. 前記請求項1又は2に記載の音声認識システムにおいて、
    前記音声認識手段が、前記入力された音声を分析してその特徴量を抽出する音声前処理部と、この抽出された音声特徴量に基づいて前記音声の一次認識結果を出力する1次音声認識部とにより構成されていることを特徴とした音声認識システム。
  4. 前記請求項1乃至3のいずれか一つに記載の音声認識システムにおいて、
    前記辞書構成制御手段が、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する語彙削除機能を備えていることを特徴とした音声認識システム。
  5. 前記請求項1乃至4のいずれか一つに記載の音声認識システムにおいて、
    前記辞書構成制御手段が、前記認識辞書の更新に際しては当該更新する情報を前記他の音声認識手段に送信する更新情報送信機能を備えていることを特徴とした音声認識システム。
  6. 前記請求項1乃至4のいずれか一つに記載の音声認識システムにおいて、
    前記他の音声認識手段を、所定の音声認識機能を備えると共に通信回線で接続されたサーバ装置により構成したことを特徴とする音声認識システム。
  7. ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて当該音声情報を一次認識する音声認識工程と、この一次認識結果の信頼性を判定すると共に当該一次認識結果を受理するか棄却するかを判定する認識結果判定工程と、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得工程と、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力工程とを有し、
    前記認識結果出力工程で外部へ出力した前記一次又は二次認識結果に対する確定情報を入力する確定結果入力工程と、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御工程とを備えたことを特徴とする音声認識方法。
  8. ユーザが発する音声情報を入力し予め装備した認識辞書に基づいて当該音声情報を一次認識する音声認識工程と、この音声情報の一次認識結果を予め外部に設定した他の判定システムに提示する認識結果提示工程と、この他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力工程と、この判定結果が前記一次認識結果が棄却と判断された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得工程と、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力工程とを有し、
    前記認識結果出力工程で外部へ出力した前記一次又は二次認識結果に対する確定情報を入力する確定結果入力工程と、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御工程とを備えたことを特徴とする音声認識方法。
  9. 前記請求項7又は8に記載の音声認識方法において、
    前記辞書更新制御工程では、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいて当該語彙を削除する語彙削除手順を備えていることを特徴とした音声認識方法。
  10. 前記請求項7乃至9のいずれか一つに記載の音声認識方法において、
    前記認識辞書更新工程では、前記認識辞書の更新に際しては当該更新する情報を前記他の音声認識システムに送信する更新情報送信手順を備えていることを特徴とした音声認識方法。
  11. クライアント側端末に入力されたユーザが発する音声情報を予め装備した認識辞書に基づいて一次認識する音声認識機能、この一次認識結果の信頼性を判定しこれに基づいて当該一次認識結果を受理するか棄却するかを判定する認識結果判定機能、前記一次認識結果が棄却された場合に作動し前記音声認識工程に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果を取得する二次認識結果取得機能、この一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力機能を、
    更に、前記認識結果出力機能を実行しで外部へ出力した前記一次又は二次認識結果に対する確定情報が入力された場合にこれを取り込む確定結果入力機能、およびこの確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御機能を、
    前記クライアント側端末が備えているにコンピュータに実行させることを特徴とした音声認識用プログラム。
  12. クライアント側端末に入力されたユーザが発する音声情報を予め装備した認識辞書に基づいて一次認識する音声認識機能、この音声情報の一次認識結果を予め外部に設定した他の判定システムに提示する認識結果提示機能、この他の判定システムにより成される前記一次認識結果に対する受理又は棄却の判定結果が入力された場合にこれを取り込む判定結果入力機能、この判定結果が一次認識結果を棄却すると判断された場合に作動し前記クライアント側端末に入力された音声情報を予め別に装備した他の音声認識手段に送信すると共に当該他の音声認識手段の音声認識機能によって得られる二次認識結果が入力された場合にこれを取り込む二次認識結果取得機能、および前記一次認識結果又は前記二次認識結果を外部へ出力する認識結果出力機能を、
    更に、前記認識結果出力工程で外部へ出力した前記一次又は二次認識結果に対する確定情報が入力された場合にこれを取り込む確定結果入力機能、この確定された認識結果に基づいて前記認識辞書を更新する辞書更新制御機能を、
    前記クライアント側端末が備えているにコンピュータに実行させることを特徴とした音声認識用プログラム。
  13. 前記請求項11又は12に記載の音声認識用プログラムにおいて、
    前記認識辞書更新機能が、前記認識辞書の語彙サイズがシステムの処理能力を越えた場合に作動し前記音声認識の直前迄の確定順序及び確定頻度の少なくともいずれか一つに基づいてその語彙を削除する処理機能を含むことを特徴とした音声認識用プログラム。
  14. 前記請求項11乃至13のいずれか一つに記載の音声認識用プログラムにおいて、
    前記認識辞書更新機能が、前記認識辞書の更新に際し、当該更新する情報を前記他の音声認識手段に送信する送信処理機能を含むことを特徴とした音声認識用プログラム。
JP2005217534A 2005-07-27 2005-07-27 音声認識システム、音声認識方法、および音声認識用プログラム Pending JP2007033901A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005217534A JP2007033901A (ja) 2005-07-27 2005-07-27 音声認識システム、音声認識方法、および音声認識用プログラム
CN200610107454A CN100590711C (zh) 2005-07-27 2006-07-25 语音识别系统和方法
US11/492,982 US7809562B2 (en) 2005-07-27 2006-07-26 Voice recognition system and method for recognizing input voice information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005217534A JP2007033901A (ja) 2005-07-27 2005-07-27 音声認識システム、音声認識方法、および音声認識用プログラム

Publications (1)

Publication Number Publication Date
JP2007033901A true JP2007033901A (ja) 2007-02-08

Family

ID=37674256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005217534A Pending JP2007033901A (ja) 2005-07-27 2005-07-27 音声認識システム、音声認識方法、および音声認識用プログラム

Country Status (3)

Country Link
US (1) US7809562B2 (ja)
JP (1) JP2007033901A (ja)
CN (1) CN100590711C (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008275987A (ja) * 2007-05-01 2008-11-13 Yamaha Corp 音声認識装置および会議システム
JP2009288630A (ja) * 2008-05-30 2009-12-10 Denso Corp 車両用音声認識システム
WO2010025440A3 (en) * 2008-08-29 2010-06-03 Multimodal Technologies, Inc. Hybrid speech recognition
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
WO2013027360A1 (ja) * 2011-08-19 2013-02-28 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
KR101330671B1 (ko) * 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
WO2013175523A1 (ja) * 2012-05-22 2013-11-28 三菱電機株式会社 音声認識装置
JP2014048507A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology ローカル言語資源の補強装置及びサービス提供設備装置
JP2014048506A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology 単語登録装置及びそのためのコンピュータプログラム
JP2014063088A (ja) * 2012-09-24 2014-04-10 Toshiba Corp 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2014134791A (ja) * 2012-12-31 2014-07-24 Samsung Electronics Co Ltd ディスプレイ装置及び制御方法
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置
JP2015143866A (ja) * 2015-02-25 2015-08-06 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2016128924A (ja) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 対話、及び/又は、命令決定プロセスの操作データの変更
WO2018092786A1 (ja) * 2016-11-15 2018-05-24 クラリオン株式会社 音声認識装置、音声認識システム
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101512518B (zh) * 2006-09-07 2015-06-24 日本电气株式会社 自然语言处理系统和词典登录系统
US7752043B2 (en) * 2006-09-29 2010-07-06 Verint Americas Inc. Multi-pass speech analytics
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
CN101504834B (zh) * 2009-03-25 2011-12-28 深圳大学 一种基于隐马尔可夫模型的哼唱式旋律识别方法
JP5545467B2 (ja) * 2009-10-21 2014-07-09 独立行政法人情報通信研究機構 音声翻訳システム、制御装置、および情報処理方法
US20110111800A1 (en) * 2009-11-11 2011-05-12 Temar Harper Cellular Phone Memory Card With Voice Activated Component
CN102770910B (zh) * 2010-03-30 2015-10-21 三菱电机株式会社 声音识别装置
US9576573B2 (en) 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
JP5821639B2 (ja) 2012-01-05 2015-11-24 株式会社デンソー 音声認識装置
JP5957269B2 (ja) * 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
KR20140008835A (ko) * 2012-07-12 2014-01-22 삼성전자주식회사 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치
US9583100B2 (en) * 2012-09-05 2017-02-28 GM Global Technology Operations LLC Centralized speech logger analysis
AU2018202888B2 (en) * 2013-01-17 2020-07-02 Samsung Electronics Co., Ltd. Image processing apparatus, control method thereof, and image processing system
CN103474069B (zh) * 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
WO2016013503A1 (ja) * 2014-07-23 2016-01-28 三菱電機株式会社 音声認識装置及び音声認識方法
CN105702256B (zh) * 2014-11-28 2020-01-31 上海航空电器有限公司 一种基于机载设备的数字串语音识别方法
CN105810188B (zh) * 2014-12-30 2020-02-21 联想(北京)有限公司 一种信息处理方法和电子设备
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理系统
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及系统
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10832668B1 (en) * 2017-09-19 2020-11-10 Amazon Technologies, Inc. Dynamic speech processing
DE102017220266B3 (de) * 2017-11-14 2018-12-13 Audi Ag Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
CN113676691A (zh) * 2020-05-15 2021-11-19 上海熔光信息科技有限公司 一种智能视频会议系统及方法
US20230030830A1 (en) * 2021-07-30 2023-02-02 Rovi Guides, Inc. Systems and methods for generating a dynamic list of hint words for automated speech recognition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63186299A (ja) * 1987-01-28 1988-08-01 富士通株式会社 単語音声認識装置
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6198808B1 (en) * 1997-12-31 2001-03-06 Weblink Wireless, Inc. Controller for use with communications systems for converting a voice message to a text message
US6338038B1 (en) * 1998-09-02 2002-01-08 International Business Machines Corp. Variable speed audio playback in speech recognition proofreader
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
JP2003241796A (ja) 2002-02-22 2003-08-29 Canon Inc 音声認識システムおよびその制御方法
JP2003295893A (ja) 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004133699A (ja) 2002-10-10 2004-04-30 Mitsubishi Electric Corp 自動応答処理システムのクライアント端末装置およびサーバ装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63186299A (ja) * 1987-01-28 1988-08-01 富士通株式会社 単語音声認識装置
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008275987A (ja) * 2007-05-01 2008-11-13 Yamaha Corp 音声認識装置および会議システム
JP2009288630A (ja) * 2008-05-30 2009-12-10 Denso Corp 車両用音声認識システム
WO2010025440A3 (en) * 2008-08-29 2010-06-03 Multimodal Technologies, Inc. Hybrid speech recognition
US7933777B2 (en) 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
JP2016128924A (ja) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 対話、及び/又は、命令決定プロセスの操作データの変更
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
JP5613335B2 (ja) * 2011-08-19 2014-10-22 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
WO2013027360A1 (ja) * 2011-08-19 2013-02-28 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
US9601107B2 (en) 2011-08-19 2017-03-21 Asahi Kasei Kabushiki Kaisha Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
JPWO2013027360A1 (ja) * 2011-08-19 2015-03-05 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
JP2013088535A (ja) * 2011-10-14 2013-05-13 Vri Inc 音声制御システム及びプログラム
WO2013175523A1 (ja) * 2012-05-22 2013-11-28 三菱電機株式会社 音声認識装置
JP2014048506A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology 単語登録装置及びそのためのコンピュータプログラム
JP2014048507A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology ローカル言語資源の補強装置及びサービス提供設備装置
JP2014063088A (ja) * 2012-09-24 2014-04-10 Toshiba Corp 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US9293137B2 (en) 2012-09-24 2016-03-22 Kabushiki Kaisha Toshiba Apparatus and method for speech recognition
US9582245B2 (en) 2012-09-28 2017-02-28 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
KR102169520B1 (ko) * 2012-09-28 2020-10-23 삼성전자 주식회사 전자장치, 서버 및 그 제어방법
JP2014071449A (ja) * 2012-09-28 2014-04-21 Samsung Electronics Co Ltd 電子装置、サーバー及びその制御方法
JP2014071457A (ja) * 2012-09-28 2014-04-21 Samsung Electronics Co Ltd 電子装置、サーバー及びその制御方法
KR101330671B1 (ko) * 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
US11086596B2 (en) 2012-09-28 2021-08-10 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
KR20140042642A (ko) * 2012-09-28 2014-04-07 삼성전자주식회사 전자장치, 서버 및 그 제어방법
US10120645B2 (en) 2012-09-28 2018-11-06 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
KR102004872B1 (ko) * 2012-09-28 2019-07-29 삼성전자 주식회사 전자장치, 서버 및 그 제어방법
KR20190088945A (ko) * 2012-09-28 2019-07-29 삼성전자주식회사 전자장치, 서버 및 그 제어방법
JP2014134791A (ja) * 2012-12-31 2014-07-24 Samsung Electronics Co Ltd ディスプレイ装置及び制御方法
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置
JP2015143866A (ja) * 2015-02-25 2015-08-06 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2018081185A (ja) * 2016-11-15 2018-05-24 クラリオン株式会社 音声認識装置、音声認識システム
US11087764B2 (en) 2016-11-15 2021-08-10 Clarion Co., Ltd. Speech recognition apparatus and speech recognition system
WO2018092786A1 (ja) * 2016-11-15 2018-05-24 クラリオン株式会社 音声認識装置、音声認識システム
WO2020004213A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2020004213A1 (ja) * 2018-06-29 2021-07-08 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7459791B2 (ja) 2018-06-29 2024-04-02 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US7809562B2 (en) 2010-10-05
US20070027693A1 (en) 2007-02-01
CN100590711C (zh) 2010-02-17
CN1905007A (zh) 2007-01-31

Similar Documents

Publication Publication Date Title
JP2007033901A (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
US8442563B2 (en) Automated text-based messaging interaction using natural language understanding technologies
WO2014208231A1 (ja) ローカルな音声認識を行なう音声認識クライアント装置
EP3447669B1 (en) Information leakage detection method and device, server, and computer-readable storage medium
KR102141116B1 (ko) 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
WO2021218069A1 (zh) 基于场景动态配置的交互处理方法、装置、计算机设备
EP2033187A2 (en) Speech recognition system and method with biometric user identification
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
CN107544271A (zh) 终端控制方法、装置及计算机可读存储介质
JP5283947B2 (ja) 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2011232619A (ja) 音声認識装置および音声認識方法
JP3141833B2 (ja) ネットワークアクセスシステム
KR20240021834A (ko) 대화형 통신 시스템을 동적으로 탐색하기 위한 방법, 장치 및 시스템
JPH0863478A (ja) 言語処理方法及び言語処理装置
US20010008555A1 (en) System and method for inputting a web-page input data into a web page by employing a wire/wireless telephone
JP2005012377A (ja) 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
KR20220109238A (ko) 사용자의 발화 입력에 관련된 추천 문장을 제공하는 디바이스 및 방법
KR102198424B1 (ko) 통화 녹음 정보 관리방법, 이를 위한 컴퓨터 프로그램
JP6922178B2 (ja) 音声認識システム、情報処理装置、プログラム
CN111104071A (zh) 用于语音助手搜索结果的集成打印的系统和方法
TWI582756B (zh) A method of switching input mode, a mobile communication device, and a computer readable medium
JP4224305B2 (ja) 対話情報処理システム
CN114615346A (zh) 一种协议转换方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110406