JP2000081891A - 認識対象音声の入力状態報知方法及び音声認識装置並びに認識対象音声の入力状態報知処理プログラムを記録した記録媒体 - Google Patents

認識対象音声の入力状態報知方法及び音声認識装置並びに認識対象音声の入力状態報知処理プログラムを記録した記録媒体

Info

Publication number
JP2000081891A
JP2000081891A JP10250139A JP25013998A JP2000081891A JP 2000081891 A JP2000081891 A JP 2000081891A JP 10250139 A JP10250139 A JP 10250139A JP 25013998 A JP25013998 A JP 25013998A JP 2000081891 A JP2000081891 A JP 2000081891A
Authority
JP
Japan
Prior art keywords
voice
speech
input
recognition target
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10250139A
Other languages
English (en)
Other versions
JP3757638B2 (ja
Inventor
Yasunaga Miyazawa
康永 宮沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP25013998A priority Critical patent/JP3757638B2/ja
Priority to US09/379,358 priority patent/US6338036B1/en
Publication of JP2000081891A publication Critical patent/JP2000081891A/ja
Application granted granted Critical
Publication of JP3757638B2 publication Critical patent/JP3757638B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 認識対象となる音声を装置側に入力する際、
適正な状態で入力されたか否かをユーザに対して簡潔に
報知する。 【解決手段】 たとえば複数の単語を1つの組として発
話された認識対象音声をディジタル化した音声データと
して出力する音声入力部11と、その音声データを分析
し音声パワーと特徴データを算出する音声分析部12
と、この音声分析部12で得られた音声パワーに基づい
て有効音声区間を検出し、この有効音声区間の時間的長
さと音声パワーの大きさによって、認識対象音声が適正
な状態で入力されたか否かを判断する音声区間検出・判
定部13と、認識対象音声を認識処理する音声認識処理
部と14と、認識対象音声が適正であることを示す判断
結果を受けると、当該認識対象音声の入力直後にその認
識対象音声が適正であることを示す情報を出力する情報
出力部15とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者の発話する音
声を認識する際、話者の音声が適正な状態で入力された
か否かを話者に報知するようにした認識対象音声の入力
状態報知方法及びそれを用いた音声認識装置並びに認識
対象音声の入力状態報知処理プログラムを記録した記録
媒体に関する。
【0002】
【従来の技術】近年、音声認識技術は様々な分野で幅広
く利用されてきている。特に最近では、日用品とも言え
る家電製品や、子供用の玩具にまで用いられている。
【0003】このように、特定のユーザが対象ではな
く、不特定多数の幅広いユーザが使用すると考えられる
機器に音声認識技術を用いるとなれば、ユーザの発話し
た音声を高い確率で認識できるように、ユーザに対し、
適正な音声の入力の仕方など使い方について分かり易く
ガイドするなどして、使い勝手のよいものとすることが
重要な課題である。
【0004】たとえば、幅広いユーザを対象とした音声
認識を用いた機器の1つとして最近では音声時計なるも
のが開発されつつある。これは、時計に設けられたボタ
ンなどを押すと、現在の時刻を「何時何分」というよう
に音声で教えてくれるものである。
【0005】この音声時計は、暗闇の中でも簡単に現在
の時刻を知ることができることから、真夜中に目を覚ま
したとき現在時刻を知りたいときや、夜間に外出中、暗
闇の中で時刻を知るときに便利なものであり、さらに
は、目の不自由な人にとっても大変便利なものとなる。
また、このような音声時計は子供の玩具にも適用される
可能性もある。
【0006】また、このような音声時計は、時刻を音声
によって出力するだけでなく、現在時刻合わせやアラー
ム時刻の設定なども音声によって行うことができる。た
とえば、現在時刻が午前6時30分であれば、音声時計
を現在時刻設定モードとして、ユーザが「午前」、「6
時」、「30分」というように、必要な単語を決められ
た順番に発話する。そして、音声時計側では、ユーザの
発話した音声を認識し、その認識結果に基づいて時刻合
わせ処理を行う。アラーム時刻の設定も同様であり、ア
ラーム時刻設定モードとして希望のアラーム時刻を発話
する。
【0007】このような操作により時刻合わせが行われ
るが、このとき、ユーザ側からすると、自分の発話した
音声が適正な状態(認識処理を行う上で適正な状態)で
入力されたかどうかが不安となることが多い。
【0008】これを解消するために、ユーザの発話した
1単語ごとにその単語に対する認識結果を応答しながら
音声入力する方式のものもある。たとえば、前述した発
話内容例においては、ユーザが「午前」と発話し、それ
に対する認識結果として、装置側からは、「午前」とい
う応答が返ってきて、続いて、ユーザが「6時」と発話
すると、装置側からは、「6時」という応答が返り、さ
らに、ユーザが「30分」と発話すると、装置側から
は、「30分」という応答が返ってくるというような動
作を行う。なお、この場合、ユーザの発話した音声が不
適切であって、認識ができなかった場合には、装置側か
らの応答がなかったり、「もう一度発話して下さい」と
いった応答がなされるようにすることもできる。
【0009】このように、ユーザの発話した1単語ごと
にその認識結果を応答したり、認識できなかった場合に
は、それに対する何らかの応答が返ってくるというよう
にすれば、ユーザ側にとっては、自分の発話した内容が
適切であるか否かがわかり、しかも、それがどのように
認識されたかがわかるので安心感が得られ、使い勝手の
よいものとなる。
【0010】
【発明が解決しようとする課題】しかしながら、前述の
ように、1単語ごとにそれを認識して応答するのでは、
たとえば、時刻合わせというような1つの設定動作を行
わせるために多くの時間を要する問題がある。また、こ
のような音声認識技術を日用品や玩具など低価格が要求
される機器に適用する場合、コストをできる限り低く抑
えることが必要となってくるため、CPUの処理能力や
メモリの容量には大ききな制約がある。したがって、装
置側ではCPUに大きな負担をかけたり、メモリを多く
使う処理はできるだけ少なくすることが要求される。
【0011】これに対処するには、前述の時刻合わせを
例に取れば、ユーザが1単語発話するとそれを認識して
その認識結果を応答するというのではなく、ユーザに時
刻合わせに必要な内容として、たとえば、「午前」・
「6時」・「30分」を1つの組とし、この1つの組を
構成する単語を、1単語ごとに少し間をおきながら断続
的に発話してもらい、その発話内容について音声認識す
るということが考えられる。この場合、1つの組を構成
する複数の単語の1つ1つに対して装置側から、前述し
たような認識結果の応答はないので、確かに、時刻設定
時間は短くできる。
【0012】しかし、このように複数の単語からなる比
較的長い一連の音声を始めから最後まで発話することに
より装置側に入力する方法では、前述したように、ユー
ザにとっては、自分の発話した1単語ごとの音声が、適
正な状態で入力されたかどうかということが不安となっ
て残る。したがって、ユーザの発話した音声が、機器に
適正な状態で入力されたか否かを、 面倒な処理を行う
ことなく、何らかの形でユーザに報知することが必要と
なってくる。
【0013】そこで本発明は、ユーザの発話した音声に
対し、その音声が音声認識を行う上で適正に入力された
か否かを、 簡単な処理を行うだけで、ユーザに報知可
能とし、音声入力操作時の使い勝手を向上させることを
目的としている。
【0014】
【課題を解決するための手段】前述した目的を達成する
ために、請求項1に記載された認識対象音声の入力状態
報知方法は、話者の発話した認識対象音声の音声波形か
ら得られる音声パワーに基づいて当該認識対象音声に対
する有効音声区間を検出し、この有効音声区間の時間的
な長さと、当該有効音声区間内の音声パワーの大きさに
よって、前記認識対象音声が適正な状態で入力されたか
否かを判断し、適正であると判断した場合には、当該認
識対象音声の入力終了直後に適正であることを示す情報
を発するようにしている。
【0015】そして、請求項2は請求項1において、前
記適正な状態で入力されたか否かの判定対象となる認識
対象音声は、複数の単語を1つの組として発話される音
声であって、この1つの組を構成するそれぞれの単語に
対するそれぞれの音声間に、各単語の区切りとしての間
を有して発話される音声であるとしている。
【0016】また、請求項3は請求項2において、前記
適正な状態で入力されたか否かの判定対象となる認識対
象音声が適正であると判断した場合に発せられる情報
は、前記1つの組を構成するそれぞれの単語の区切りと
しての間に瞬時的に出力される信号音、光、音声メッセ
ージ、表示画面上での表示のうちの少なくとも1つとし
ている。
【0017】さらに、請求項4は請求項2または3にお
いて、前記1つの組を構成する複数の単語は、第1から
第n(nは正の整数)までの単語群に属し、発話する順
番は、第1の単語群に属する単語から順に第nの単語群
に属する単語までと決められていて、前記有効音声区間
の時間的な長さを判定する基準は、それぞれの単語群ご
とに設定するようにしている。
【0018】また、請求項5記載の音声認識装置は、話
者の発話した認識対象音声を入力してディジタル化した
音声データとして出力する音声入力手段と、この音声入
力手段から出力された音声データを所定時間ごとに分析
し、所定時間ごとの音声パワーと特徴データを算出する
音声分析手段と、この音声分析手段によって求められた
音声パワーに基づいて当該認識対象音声に対する有効音
声区間を検出し、この有効音声区間の時間的な長さと、
当該有効音声区間内の音声パワーの大きさによって、前
記認識対象音声が適正な状態で入力されたか否かを判断
し、適正であると判断した場合には前記認識対象音声の
入力終了直後に適正であることを示す信号を出力する音
声区間検出・判定手段と、この音声区間検出・判定手段
で得られた前記認識対象音声に対する有効音声区間と前
記音声分析手段で得られた特徴データとに基づいて認識
対象音声を認識処理する音声認識処理手段と、前記認識
結果に対する装置側からの応答および装置側からユーザ
に対する音声メッセージを出力するとともに、前記音声
区間検出・判定手段からの前記認識対象音声が適正であ
ることを示す信号を受けると、当該認識対象音声が適正
であることを示す情報を出力する情報出力手段とを有し
た構成としている。
【0019】そして、請求項6は請求項5において、前
記適正な状態で入力されたか否かの判定対象となる認識
対象音声は、複数の単語を1つの組として発話される音
声であって、この1つの組を構成するそれぞれの単語に
対するそれぞれの音声間に、各単語の区切りとしての間
を有して発話される音声であるとしている。
【0020】また、請求項7は請求項6において、前記
適正な状態で入力されたか否かの判定対象となる認識対
象音声が適正であると判断した場合に発せられる情報
は、前記1つの組を構成するそれぞれの単語の区切りと
しての間に瞬時的に出力される信号音、光、音声メッセ
ージ、表示画面上での表示のうちの少なくとも1つとし
ている。
【0021】さらに、請求項8は請求項6または7にお
いて、前記1つの組を構成する複数の単語は、第1から
第n(nは正の整数)までの単語群に属し、発話する順
番は、第1の単語群に属する単語から順に第nの単語群
に属する単語までと決められていて、前記有効音声区間
の時間的な長さを判定する基準は、それぞれの単語群ご
とに設定するようにしている。
【0022】また、請求項9に記載の発明は、話者から
の認識対象音声が入力されると、その認識対象音声が認
識を行う上で適正な状態で入力されたか否かを判定し、
その判定結果を話者に報知する認識対象音声の入力状態
報知処理プログラムを記録した記録媒体であって、その
処理プログラムは、話者の発話した認識対象音声を入力
してディジタル化した音声データとして出力する手順
と、これによって得られた音声データを所定時間ごとに
分析し、所定時間ごとの音声パワーを算出する手順と、
これによって得られた音声パワーに基づいて当該認識対
象音声に対する有効音声区間を検出し、この有効音声区
間の時間的な長さと、当該有効音声区間内の音声パワー
の大きさによって、前記認識対象音声が適正な状態で入
力されたか否かを判断し、適正であると判断した場合に
は前記認識対象音声の入力終了直後に適正であることを
示す信号を出力する手順と、前記認識対象音声が適正で
あることを示す信号を受けると、当該認識対象音声が適
正であることを示す情報を出力する手順とを含むように
している。
【0023】そして、請求項10は請求項9において、
前記適正な状態で入力されたか否かの判定対象となる認
識対象音声は、複数の単語を1つの組として発話された
音声であって、この1つの組を構成するそれぞれの単語
に対するそれぞれの音声間に、各単語の区切りとしての
間を有して発話された音声であるとしている。
【0024】また、請求項11は請求項10において、
前記適正な状態で入力されたか否かの判定対象となる認
識対象音声が適正であると判断した場合に発せられる情
報は、前記1つの組を構成するそれぞれの単語の区切り
としての間に瞬時的に出力される信号音、光、音声メッ
セージ、表示画面上での表示の少なくとも1つであると
している。
【0025】さらに、請求項12は請求項10または1
1において、前記1つの組を構成する複数の単語は、第
1から第n(nは正の整数)までの単語群に属し、発話
する順番は、第1の単語群に属する単語から順に第nの
単語群に属する単語までと決められていて、前記有効音
声区間の時間的な長さを判定する基準は、それぞれの単
語群ごとに設定するようにしている。
【0026】本発明は、ユーザの入力した認識対象音声
が適正な状態で入力されたか否かを簡単な処理を行うだ
けで話者に報知することを可能とし、使い勝手の向上を
図るものである。これを実現するために、ユーザの発話
した認識対象音声における有効音声区間の時間的な長さ
と、当該有効音声区間内の音声パワーの大きさによっ
て、前記認識対象音声が適正な状態で入力されたか否か
を判断し、適正であると判断した場合には、当該認識対
象音声の入力直後に適正であることを示す情報を発する
ようにしている。これにより、ユーザは自分の発話した
音声が適正な状態で入力されたか否かを簡単に知ること
ができ、音声の入力操作を行う際、ユーザに対し、自分
の入力した音声が本当に適正な状態で入力されたのかど
うかという不安感を与えることがなくなる。
【0027】また、このような適正な状態で入力された
か否かの判定対象となる認識対象音声は、複数の単語を
1つの組として発話された音声であって、この1つの組
を構成するそれぞれの単語に対するそれぞれの音声間
に、各単語の区切りを示す間を有して発話された音声を
対象としている。たとえば、現在時刻などの時刻設定を
音声により設定可能な時計を例に取れば、「午前」・
「何時」・「何分」というように複数の単語を1つの組
とし、それを構成する各単語間に区切りとしての間をお
きながら断続的に発話される音声を対象としている。
【0028】このように、複数の単語を1つの組とし
て、各単語間に装置側から認識結果の応答なしに、ユー
ザの発話を一方的に入力する状況にあっては、各単語が
果たして適正な状態(認識を行う上で適正な状態)で入
力されたのかどうかがユーザにとって不安なもとなる。
【0029】これを解消するために、複数の単語を1つ
の組として発話される状況の場合は、それぞれの単語間
に装置側から何らかの情報を発信することで、ユーザに
安心感を与えることができる。
【0030】その情報としては、各単語間の区切り時間
内に瞬時的に発せられる信号音(たとえば「ピッ」とい
うような信号音)、発光ダイオード(LED)などによ
り瞬時的に発光する光、音声メッセージ(たとえば「は
い」というようなごく短い音声メッセージ)、液晶ディ
スプレイ(LCD)などの表示部を有する装置にあって
は、LCD上での「OK」などの簡単な表示)などが考
えられる。ユーザは、自分の発話した1単語ごとの音声
のあとに、このような簡単な情報が装置側から瞬時的に
発せられることによって、自分の発話した音声が適正な
状態で入力されたことがわかるので、音声入力操作に対
する安心感が得られる。
【0031】また、1つの組を構成する複数の単語は、
第1から第n(nは正の整数)までの単語群に属し、発
話する順番は、まず、第1の単語群に属する単語、次ぎ
に、第2の単語群に属する単語というように順番が決め
られていて、前述した有効音声区間の時間的な長さを判
定する基準は、それぞれの単語群ごとに設定するように
している。これは、各単語群に属する単語の長さ(発話
に必要な時間的長さ)が、単語群間で大きく異なる可能
性があるからである。したがって、有効音声区間の時間
的な長さを判定する基準を、それぞれの単語群ごとに設
定しておくことによって、各単語群に属する単語に対し
適正な有効音声区間の長さの判定が可能となる。
【0032】また、本発明の音声認識装置は、以上説明
したような認識対象音声の入力状態報知方法を採用する
ことにより、使い勝手をよくすることができ、この種の
機器の取り扱いに不慣れなユーザでも容易に取り扱うこ
とができるようになる。
【0033】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。なお、この実施の形態では、
音声認識技術を用いた機器として前述した音声時計を例
に取り、この音声時計において、午前何時何分というよ
うな時刻合わせをする例について説明する。ここでは、
具体例として、「午前6時30分」を設定することを考
える。
【0034】図1は本発明が適用される音声時計の外観
構成を示すものであって、この音声時計は、液晶表示部
など時刻の表示部分を持たない音声メッセージだけの音
声時計であり、筺体1には音声出力手段としてのスピー
カ2とユーザからの音声コマンドが入力されるマイクロ
ホン3が設けられる。さらに、現在時刻合わせを行った
りアラーム時刻合わせを行ったりするときにモード設定
を行うためのモード設定部4、現在時刻を知りたいとき
に押される時刻ボタン5などを少なくとも有している。
これ以外にも、機能によっては様々な構成要素が設けら
れるが、本発明の要旨とは直接関係しない部分の図示お
よびその説明は省略する。
【0035】このような音声時計は、現在時刻が正確に
合わせられていれば、時刻ボタン5がユーザによって押
されると、その時点の現在時刻として、たとえば、「午
前8時30分」などと装置側から音声メッセージによる
時刻が出力される。
【0036】図2はこのような音声時計に用いられる音
声認識装置の構成を示すブロック図であり、音声入力部
11、音声分析部12、音声区間検出・判定部13、音
声認識処理部14、情報出力部15、音声認識を行うた
めの音声認識用モデルデータ16、装置側から発せられ
る様々な情報(認識結果に対応する応答内容や、ユーザ
に問いかけを行う際の音声メッセージ内容、さらには、
話者の発話した音声が適正であると判断されたときに出
力される情報)を出力するための出力用データ17を有
している。
【0037】音声入力部11は、前述したマイクロホン
2や図示されていないアンプ、さらには、図示されてい
ないA/D変換器などを有し、ユーザによって発話され
た音声をマイクロホン2を通して入力し、増幅したのち
A/D変換を行い、たとえば、8KHz、10bitのデ
ィジタル化された音声データとして出力する。
【0038】音声分析部12は、音声入力部11によっ
て出力された音声データを、たとえば、20msec程度
(シフト量は10msec程度)の短時間ごとに音声分析を
行い、その短時間(20msec程度)ごとに音声パワーと
特徴データ(たとえば、10次元LPCケプストラム)
を算出する。
【0039】音声区間検出・判定部13は、音声分析部
12で算出された音声パワーを用いて、有効な音声区間
(有効音声区間という)を検出し、有効音声区間の時間
的な長が予め定めた所定の時間的長さ(L1,L2で表
し、L1<L2とする)の範囲内(L1よりも長く、L
2よりも短い範囲内)で、音声パワーの最大値がある2
つのしきい値(th2,th3で表し、th2<th3
とする)の範囲内(th2よりも大きく、th3よりも
小さい範囲内)に入っている場合、その有効音声区間は
正常な範囲内であると判定され、その音声は音声認識を
行う上で適正な状態で入力されたと判断する。そして、
適正であると判断すると前記有効音声区間の終端から一
定時間(L4とする)後に、当該音声が適正な状態で入
力されたことを示す信号を出力する。
【0040】なお、ここでいう有効音声区間というの
は、ユーザの音声パワーが、あるしきい値(th1とす
る)より大きくなった時点を音声区間の始端として求
め、その後、音声パワーがしきい値th1より小さくな
り、かつ、しきい値th1より小さくなった時点から予
め定めた所定時間(L3とする)経過しても再びしきい
値th1より大きくならない場合、しきい値th1より
小さくなった時点を音声区間の終端として求め、その音
声区間の始端から終端までを有効音声区間という。
【0041】また、音声認識処理部14は、検出された
有効音声区間内の特徴データ(音声分析部12で得られ
た前述の音声特徴データのうち有効音声区間内の特徴デ
ータ)に基づき、音声認識用モデルデータ16を用いて
音声認識処理を行う。
【0042】情報出力部15は、前述したように、認識
結果に対応する応答音声や、ユーザに問いかける内容の
音声メッセージを出力用データ17を用いて作成して出
力するものであるが、その他に、音声区間検出・判定部
13から出力された前記適正であることを示す信号を受
け取ると、音声が適正に入力されたことを示す情報(こ
の実施の形態では、「ピッ」という信号音とする)を出
力する。
【0043】このような構成された音声時計において、
何らかの時刻設定(ここでは現在時刻とする)を行う例
について説明する。ここでは、設定する時刻としては、
前述したように、午前6時30分であるとする。このと
き、音声時計(装置という)を現在時刻設定モードとす
る。
【0044】図3(a)はユーザの発話した「午前」・
「6時」・「30分」の音声波形であり、音声入力部1
1によってA/D変換されたあとの出力であるとする。
この図3(a)からもわかるように、ある時刻に時刻合
わせをするような場合、たとえば、「午前6時30分」
という時刻合わせ内容を発話する際、認識率を高くする
ために、時刻合わせ内容を構成する各単語(「午前」・
「6時」・「30分」)を1単語づつ、各単語間に少し
の間(ΔT1,ΔT2時間)をおいて発話するようにユ
ーザ側に予め知らせておくとよい結果が得られる。
【0045】このように、この実施の形態において用い
られる音声は、複数の単語を1つの組として発話される
音声であって、この1つの組を構成するそれぞれの単語
に対するそれぞれの音声間に、各単語の区切りとしての
間を有して断続的に発話される音声であるとする。
【0046】また、ここでは、現在時刻設定モードであ
り、このような現在時刻設定モード(アラーム時刻設定
モードの場合も同様)のときは、最初に「午前」か「午
後」を発話し、2番目に「何時」、3番目に「何分」と
いうように、発話する順番は決められているものとす
る。また、説明の都合上、最初に発話される部分を第1
の単語群に属する単語、2番目に発話される部分を第2
の単語群に属する単語、3番目に発話される部分を第3
の単語群に属する単語と呼ぶことにする。
【0047】図3(a)に示すような音声データに対
し、音声分析部12によって、たとえば20msecごとの
フレームに区切って音声分析を行い、各フレームごとに
音声パワーと特徴データを求める。なお、特徴データは
音声認識処理のときに用いられ、ここで行われるユーザ
の発話した音声が適正であるか否かの判定処理では、音
声パワーを用いる。
【0048】図3(b)は各フレームごとに求められた
音声パワーを曲線で結んだ音声パワー曲線を示すもので
ある。なお、図3(a)では、ユーザが「午前」・「6
時」・「30分」というように、1つの組を構成する単
語を順番にすべて発話したときに得られる音声データで
あるが、本発明が行う処理は、ユーザが「午前」と発話
すると、その「午前」の発話内容について、適正である
か否かを判定する処理を行い、適正であれば装置側から
「ピッ」という信号音を出し、その後に、ユーザが「6
時」と発話することにより、その「6時」の発話内容に
ついて、適正であるか否かを判定する処理を行い、適正
であれば装置側から「ピッ」という信号音を出し、続い
て、「30分」と発話することにより、その「30分」
の発話内容について、適正であるか否かを判定する処理
を行うというように、1つの組を構成するそれぞれの単
語についてその単語が適正な状態で入力されたか否かの
判定処理を行う。以下、それぞれの単語ごとの処理につ
いて詳細に説明する また、前述の有効音声区間の時間的長さを判定するため
の基準となる時間的長さL1とL2は、実際には、前述
した第1の単語群、第2の単語群、第3の単語群のそれ
ぞれの単語群ごとに設定されるものである。
【0049】この単語群とは、この場合、ユーザの発話
する内容は、「午前」、「何時」、「何分」という決め
られたパターンであるので、「午前」の部分に発話され
る単語群を第1の単語群といい、この第1の単語群に属
する単語は、この場合、「午前」の他には「午後」があ
る。また、「何時」の部分に発話される単語群を第2の
単語群といい、この第2の単語群に属する単語は、この
場合、「0時」、「1時」、「2時」など時間の単位を
表す単語である。また、「何分」の部分に発話される単
語群を第3の単語群といい、この第3の単語群に属する
単語は、この場合、「0分」、「1分」、「2分」など
分の単位を表す単語である。しかも、これら第1から第
3の単語群は、最初に第1の単語群(たとえば「午
前」)を発話し、続いて第2の単語群(たとえば「6
時」)を発話し、さらに続いて第3の単語群(たとえば
「30分」)を発話するというように、発話する順番は
きまっていて、装置側では、その順番に従って、入力さ
れた各単語群に対する認識処理を行うようになってい
る。
【0050】したがって、前述のL1とL2は、第1か
ら第3の単語群ごとに設定しておく方がよい結果が得ら
れる。以下、第1の単語群に対して設定される時間的長
さをL11,L21(L11<L21)とし、第2の単
語群に対して設定される時間的長さをL12,L22
(L12<L22)とし、第3の単語群に対して設定さ
れる時間的長さをL13,L23(L13<L23)と
する。
【0051】まず、ユーザが第1の単語群に属する単語
として「午前」と発話すると、音声分析部12によっ
て、前述したように、たとえば20msecごとのフレーム
に区切って音声分析を行い、各フレームごとに音声パワ
ーと特徴データを求める。
【0052】そして、ユーザの発話した「午前」に対し
て得られた音声パワー曲線から、「午前」に対する音声
データの有効音声区間T1を求める。
【0053】まず、予め設定されたしきい値th1を基
準にして、ユーザが発話して得られた音声パワーが、最
初にしきい値th1を越えた時刻を、「午前」の音声区
間の始端とする。この図3(b)からもわかるように、
時刻t1でしきい値th1を越えているので、この時刻
t1を「午前」に対する音声区間の始端とする(始端t
1という)。
【0054】続いて、「午前」に対する音声パワーが、
しきい値th1より小さくなる時刻を調べ、その時刻が
t2であるとする。そして、この時刻t2から予め定め
られたある一定時間L3が経過したのちにも音声パワー
がしきい値th1を再び越えなければ、「午前」に対す
る音声区間t1の終端は、時刻t2であるとする。この
時刻t2を音声区間t1の終端とする(終端t2とい
う)。
【0055】そして、このように求められた始端t1と
終端t2の間の区間を有効音声区間T1とし、t1を有
効音声区間T1の始端とし、t2を有効音声区間T1の
終端とする。なお、前記一定時間L3はごく短い時間が
設定され、具体的には、隣接する単語間に存在する単語
間の区切りとしての間の時間ΔT1,ΔT2よりもきわ
めて短い時間である。
【0056】このようにして、第1の単語群に属する
「午前」の音声に対する有効音声区間T1が求められ
る。次に、この有効音声区間T1の時間的長さと音声パ
ワーが、予め設定された範囲内にあるか否かを判断す
る。
【0057】つまり、前述したように、有効音声区間T
1の時間的長さ(時間的長さもT1で表す)が予め設定
された時間的長さL11,L21に対し、L11<T1
<L21であって、その有効音声区間T1内の音声パワ
ーの最大値m1が予め設定されたしきい値th2,th
3に対し、th2<m1<th3を満たす場合、抽出さ
れた有効音声区間T1は正常な範囲内にあると判断さ
れ、ユーザの発話した「午前」は音声認識を行う上で適
正な状態で入力されたと判断する。
【0058】このようにして、第1の単語群に属する
「午前」に対する有効音声区間T1が所定の範囲内(
L11<T1<L21で、かつ、 th2<m1<th
3)であると判断されると、音声区間検出・判定部13
は、図3(c)に示すように、その有効音声区間T1の
終端t2からL4時間経過後に、情報出力部15に対
し、当該音声(この場合「午前」)が適正な状態で入力
された音声であることを示す信号s1を出力する。
【0059】情報出力部15はこの信号s1を受ける
と、図3(d)に示すように、予め決められた瞬時的な
情報として信号音を出力する。この信号音は、ユーザの
発話した音声が認識を行うに適正な状態で入力された音
声であることをユーザに対して報知するもので、種々の
報知手段が考えられるが、この実施の形態では、「ピ
ッ」という瞬時的な信号音を出力する。
【0060】すなわち、ユーザが「午前」と発話してそ
れが適正であると判断されると、ユーザの発話した「午
前」の後につづいて「ピッ」という信号音が装置側から
発せられる。これにより、ユーザは自分の発話した「午
前」という音声が適正な状態で装置側に入力されたとい
うことがわかる。
【0061】つづいて、ユーザが第2の単語群に属する
「6時」と発話すると、その音声データに対する音声パ
ワー曲線から、「6時」に対する音声データの有効音声
区間T2を求める。
【0062】まず、予め設定されたしきい値th1を基
準にして、ユーザが発話して得られた音声パワーが、最
初に、このしきい値th1を越えた時刻を、「6時」の
音声区間の始点とする。図3(b)からもわかるよう
に、時刻t3でしきい値th1を越えているので、この
時刻t3を「6前」に対する音声区間の始端とする(始
端t3という)。
【0063】続いて、「6時」という単語に対する音声
パワーが、しきい値th1より小さくなる時刻を調べ、
その時刻がt4であるとする。そして、この時刻t4か
ら予め定められたある一定時間L3が経過したのちにも
音声パワーがしきい値th1を再び越えなければ、「6
時」に対する音声区間T2の終端は、時刻t4であると
する。この時刻t4を音声区間の終端とする(終端t4
という)。
【0064】このように求められた始端t3と終端t4
の間の区間を有効音声区間T2とし、t3を有効音声区
間T2の始端とし、t4を有効音声区間T2の終端とす
る。次に、この有効音声区間T2の時間的長さが、予め
設定された範囲内にあるか否かを判断する。この場合、
L12<T2<L22か否かを判断する。また、その音
声区間T2内の音声パワーの最大値m2がしきい値th
2,th3の範囲内に入っているか否かを判断する。そ
して、これらの条件が成立すると、抽出された有効音声
区間T2は正常な範囲内にあると判断され、その音声
(この場合、「6時」)は音声認識処理を行う上で適正
に入力されたと判断する。
【0065】このようにして、第2の単語群に属する
「6時」に対する有効音声区間T2が正常な範囲内であ
ると判断されると、音声区間検出・判定部13は、図3
(c)に示すように、その有効音声区間T2の終端t4
からL4時間経過後に、情報出力部15に対し、当該有
効音声区間T2が正常な範囲内であったことを示す信号
s2を出力する。
【0066】情報出力部15はこの信号s2を受ける
と、図3(d)に示すように、適正であることを示す情
報として、前述したように、「ピッ」という瞬時的な信
号音を出力する。
【0067】すなわち、ユーザが「午前」に続いて「6
時」と発話し、それが適正であると判断されると、「6
時」の後につづいて「ピッ」という信号音が装置側から
発せられる。これにより、ユーザは自分の発話した「6
時」という音声が装置側に適正な状態で入力されたとい
うことがわかる。
【0068】続いて、ユーザが第3の単語群に属する
「30分」と発話すると、その音声データに対する音声
パワー曲線から、「30分」に対する音声データの有効
音声区間T3を求める。
【0069】まず、図3(b)からもわかるように、時
刻t5でしきい値th1を越えているので、この時刻t
5を「30分前」に対する音声区間T3の始端とする
(始端t5という)。そして、「30分」という単語に
対する音声パワーが、しきい値th1より小さくなる時
刻を調べ、その時刻がt6であるとする。この時刻t6
から予め定められたある一定時間L3が経過したのちに
も音声パワーがしきい値th1を再び越えなければ、
「30分」に対する音声区間の終端は、時刻t6である
とする。この時刻t6を音声区間の終端とする(終端t
6という)。
【0070】このように求められた始端t5と終端t6
の間の区間を有効音声区間T3とし、t5を有効音声区
間T3の始端とし、t6を有効音声区間T3の終端とす
る。次に、この有効音声区間T3の時間的長さが、予め
設定された範囲内にあるか否かを判断する。この場合、
L13<T3<L23か否かを判断する。また、その有
効音声区間T3内の音声パワーの最大値m3がしきい値
th2,th3の範囲内に入っているか否かを判断す
る。そして、これらの条件が成立すると、抽出された有
効音声区間T3は正常な範囲内にあると判断され、その
音声(この場合、「30分」)が適正な状態で入力され
たと判断する。
【0071】このようにして、第3の単語群に属する
「30分」に対する有効音声区間T3が正常な範囲内で
あると判断されると、音声区間検出・判定部13は、図
3(c)に示すように、その有効音声区間T3の終端t
6からL4時間経過後に、情報出力部15に対し、当該
有効音声区間T3が正常な範囲内であったことを示す信
号s3を出力する。
【0072】情報出力部15はこの信号s3を受ける
と、適正であることを示す情報として、前述したよう
に、「ピッ」という瞬時的な信号音を出力する。
【0073】すなわち、ユーザが「午前」、「6時」に
続いて「30分」と発話し、それが適正な状態で入力さ
れたと判断されると、「30分」の後につづいて「ピ
ッ」という信号音が装置側から発せられる。これによ
り、ユーザは自分の発話した「30分」が装置側に適正
な状態で入力されたと判断できる。
【0074】このように、ユーザが、「午前」、「6
時」、「30分」と発話した場合、それぞれの単語に対
する音声が適正な状態で入力されたと判断されると、
「午前」、「ピッ」、「6時」、「ピッ」、「30
分」、「ピッ」というように、ユーザの発話した音声の
あとに装置側から「ピッ」が応答されるので、ユーザは
それを聞くことにより自分の発話した音声が適正な状態
で入力されたことがわかり、安心感が得られる。
【0075】なお、前述のL3は第1から第3の単語群
において共通の時間として説明したが、これもL1,L
2と同様に、それぞれの単語群ごとに適当な時間を設定
するようにしてもよい。
【0076】また、ある有効音声区間(有効音声区間T
1とする)が前述した条件を満たさない例として、図4
(a),(b)がある。図4(a)は有効音声区間T1
の2つの最大値m1がしきい値th3を越え、しかも、
有効音声区間T1の時間的長さが、L11よりも短い場
合である。また、図4(b)は有効音声区間T1の最大
値m1がしきい値th2より小さく、かつ、有効音声区
間T1の時間的長さが、L21よりも長い場合である。
【0077】図4(a)の例は、ユーザの発話した音声
が強すぎ、しかも、きわめて早口で発話したような例で
あり、このような状態で発話された音声に対しては適正
な音声認識が行えない可能性が高いことから、その入力
音声は適正でないとする。
【0078】また、図4(b)の例は、ユーザの発話し
た音声が小さすぎ、しかも、きわめて間延びした状態で
発話したような例であり、このような状態で発話された
音声に対しては、適正な音声認識が行えない可能性が高
いことから、その入力音声は適正でないとする。
【0079】なお、図4(a),(b)の例は、共に、
音声パワーと有効音声区間の時間的長さの両方が条件を
満たさない例であるが、音声パワーと有効音声区間の時
間的長さのいずれか一方が条件を満たさない場合でも、
その入力音声は適正でないと判断される。
【0080】このように、ユーザの発話した音声が適正
な状態で入力されなかったと判断した場合には、「ピ
ッ」という信号音は発しないようにする。これにより、
ユーザは自分の発話した音声が適正ではないということ
を知ることができる。この場合、装置側からの反応が無
音であることから、ユーザは、再度、入力し直すという
ようなことを行う。あるいは、適正な状態で入力がなさ
れなかった場合には、再度、入力し直すことを促す音声
メッセージやその他の信号などでユーザに報知すること
もできる。
【0081】以上説明したように、この実施の形態は、
装置側に対し、「午前」、「6時」、「30分」という
ような複数の単語から構成される内容を、1単語発話す
るごとに少し間をおいて次の単語を入力するという断続
的な発話によって音声の入力を行うことで、この入力音
声を認識させて、それに対応する動作(現在時刻設定な
ど)を行わせるような場合を例にしている。
【0082】この場合、ユーザが、まず、「午前」と発
話すると、その音声データから得られた有効音声区間の
時間的長さと音声パワーとに基づいて、その音声が適正
な状態で入力されたか否かを判定し、適正な音声である
と判定した場合には、適正であることを示す「ピッ」と
いうような瞬時的な信号音を発するようにしている。こ
れにより、ユーザは、自分が発した音声が正常な状態で
入力されたか否かを装置側からの信号音で知ることがで
き、音声入力操作を不安感を抱くことなく行うことがで
きる。
【0083】このように、本発明は、装置との間で対話
形式で音声を入力する方式でなく、1つの組に存在する
複数の単語を断続的に続けて入力するような場合に特に
有効なものとなる。
【0084】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。
【0085】たとえば、前述の実施の形態では、有効音
声区間が適正か否かの判断条件の一つとして、音声パワ
ーの最大値を用いているが、有効音声区間内の音声パワ
ーの平均値を用いて有効音声区間が適正か否かの判断を
行っても良い。
【0086】また、前述の実施の形態では、ユーザの発
話した音声が適正であることを示す情報として「ピッ」
というような信号音を用いたが、このような信号音に限
られるものではなく、たとえば、発光ダイオードなどを
点灯させるようにしてもよく、また、「はい」というよ
うな短い音声による応答でであってもよい。さらには、
液晶ディスプレイのような表示部のあるものであれば、
話者の音声入力直後にその音声が適正である場合、その
表示部にたとえば「OK」というような表示を行うよう
にしてもよい。
【0087】また、前述の実施の形態では、音声認識技
術を用いた時計における時刻合わせを例にとって説明し
たが、本発明は、時計以外の機器にも適用できることは
勿論である。
【0088】また、前述の実施の形態では、3つの単語
を1組として入力した例を示したが、1組を構成する単
語数は3つに限られるものでないことは勿論である。
【0089】また、以上説明した本発明の認識対象音声
の入力状態報知処理を行う処理プログラムは、フロッピ
ィディスク、光ディスク、ハードディスクなどの記録媒
体に記録させておくことができ、本発明はその記録媒体
をも含むものである。また、ネットワークから処理プロ
グラムを得るようにしてもよい。
【0090】
【発明の効果】以上説明したように本発明によれば、話
者の発話した認識対象音声における有効音声区間の時間
的な長さと、当該有効音声区間内の音声パワーの大きさ
によって、前記認識対象音声が適正な状態で入力された
か否かを判断し、適正であると判断した場合には、当該
認識対象音声の入力直後に適正であることを示す情報を
発するようにしている。これにより、ユーザが装置に対
して音声の入力操作を行う際、自分の入力した音声が本
当に適正な状態で入力されたのかどうかという不安感を
抱くことがなくなり、音声入力を行う際の操作性の向上
を図ることができる。
【0091】特に、認識対象音声が、複数の単語を1つ
の組として発話される音声であって、このような音声を
入力する際に効果が得られる。たとえば、現在時刻など
の時刻設定を音声により設定可能な時計を例に取れば、
「午前」・「何時」・「何分」というように複数の単語
を1つの組とし、それを構成する各単語間に区切りとし
ての間をおきながら断続的に発話されるような場合であ
る。このように、複数の単語を1つの組としてそれぞれ
の単語が断続的に発話される場合、各単語を発話したあ
とに、装置側から瞬時的に発せられる信号音などが返っ
てくるようにすることで、ユーザは、自分の発話した音
声が適正な状態で入力されたことが即座にわかり、音声
入力操作に対する安心感が得られる。
【0092】また、ユーザの発話した音声が適正な状態
で入力されことを示す情報として、瞬時的な情報を発す
るだけであるので、たとえば、それぞれの単語を認識し
てその認識結果をそのまま応答するのに比べると、処理
を軽いものとすることができ、処理時間も大幅に短縮す
ることができる。
【0093】そして、このような認識対象音声の入力状
態報知方法を採用した音声認識装置は、使い勝手のよい
ものとなり、この種の機器の取り扱いに不慣れなユーザ
でも容易に取り扱うことができるようになり、また、全
体的な処理を軽いものとすることができるので、CPU
やメモリに低コストなものが使用でき、装置そのものの
価格も低コスト化が図れる。
【図面の簡単な説明】
【図1】本発明の実施に形態に用いられる音声時計の外
観を概略的に示す図。
【図2】図1で示した音声時計に用いられる音声認識装
置部分の概略構成を説明するブロック図である。
【図3】図1で示した音声時計にて時刻設定を行う際の
認識対象音声の入力状態報知処理を説明するタイムチャ
ート。
【図4】本発明の実施の形態における入力音声が適正で
ない例を説明する図。
【符号の説明】
1 音声時計の筺体 2 スピーカ 3 マイクロホン 4 モード設定部 5 時刻ボタン 11 音声入力部 12 音声分析部 13 音声区間検出・判定部 14 音声認識処理部 15 情報出力部 16 音声認識用モデルデータ 17 出力用モデルデータ

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 話者の発話した認識対象音声の音声波形
    から得られる音声パワーに基づいて当該認識対象音声に
    対する有効音声区間を検出し、この有効音声区間の時間
    的な長さと、当該有効音声区間内の音声パワーの大きさ
    によって、前記認識対象音声が適正な状態で入力された
    か否かを判断し、適正であると判断した場合には、当該
    認識対象音声の入力終了直後に適正であることを示す情
    報を発することを特徴とする認識対象音声の入力状態報
    知方法。
  2. 【請求項2】 前記適正な状態で入力されたか否かの判
    定対象となる認識対象音声は、複数の単語を1つの組と
    して発話される音声であって、この1つの組を構成する
    それぞれの単語に対するそれぞれの音声間に、各単語の
    区切りとしての間を有して発話される音声であることを
    特徴とする請求項1記載の認識対象音声の入力状態報知
    方法。
  3. 【請求項3】 前記適正な状態で入力されたか否かの判
    定対象となる認識対象音声が適正であると判断した場合
    に発せられる情報は、前記1つの組を構成するそれぞれ
    の単語の区切りとしての間に瞬時的に出力される信号
    音、光、音声メッセージ、表示画面上での表示の少なく
    とも1つであることを特徴とする請求項2に記載の認識
    対象音声の入力状態報知方法。
  4. 【請求項4】 前記1つの組を構成する複数の単語は、
    第1から第n(nは正の整数)までの単語群に属し、発
    話する順番は、第1の単語群に属する単語から順に第n
    の単語群に属する単語までと決められていて、前記有効
    音声区間の時間的な長さを判定する基準は、それぞれの
    単語群ごとに設定されることを特徴とする請求項2また
    は3記載の認識対象音声の入力状態報知方法。
  5. 【請求項5】 話者の発話した認識対象音声を入力して
    ディジタル化した音声データとして出力する音声入力手
    段と、 この音声入力手段から出力された音声データを所定時間
    ごとに分析し、所定時間ごとの音声パワーと特徴データ
    を算出する音声分析手段と、 この音声分析手段によって求められた音声パワーに基づ
    いて当該認識対象音声に対する有効音声区間を検出し、
    この有効音声区間の時間的な長さと、当該有効音声区間
    内の音声パワーの大きさによって、前記認識対象音声が
    適正な状態で入力されたか否かを判断し、適正であると
    判断した場合には前記認識対象音声の入力終了直後に適
    正であることを示す信号を出力する音声区間検出・判定
    手段と、 この音声区間検出・判定手段で得られた前記認識対象音
    声に対する有効音声区間と前記音声分析手段で得られた
    特徴データとに基づいて認識対象音声を認識処理する音
    声認識処理手段と、 前記認識結果に対する装置側からの応答および装置側か
    らユーザに対する音声メッセージを出力するとともに、
    前記音声区間検出・判定手段からの前記認識対象音声が
    適正であることを示す信号を受けると、当該認識対象音
    声が適正であることを示す情報を出力する情報出力手段
    と、 を有したことを特徴とする音声認識装置。
  6. 【請求項6】 前記適正な状態で入力されたか否かの判
    定対象となる認識対象音声は、複数の単語を1つの組と
    して発話される音声であって、この1つの組を構成する
    それぞれの単語に対するそれぞれの音声間に、各単語の
    区切りとしての間を有して発話される音声であることを
    特徴とする請求項5記載の音声認識装置。
  7. 【請求項7】 前記適正な状態で入力されたか否かの判
    定対象となる認識対象音声が適正であると判断した場合
    に発せられる情報は、前記1つの組を構成するそれぞれ
    の単語の区切りとしての間に瞬時的に出力される信号
    音、光、音声メッセージ、表示画面上での表示の少なく
    とも1つであることを特徴とする請求項6に記載の音声
    認識装置。
  8. 【請求項8】 前記1つの組を構成する複数の単語は、
    第1から第n(nは正の整数)までの単語群に属し、発
    話する順番は、第1の単語群に属する単語から順に第n
    の単語群に属する単語までと決められていて、前記有効
    音声区間の時間的な長さを判定する基準は、それぞれの
    単語群ごとに設定されることを特徴とする請求項6また
    は7記載の音声認識装置。
  9. 【請求項9】 話者からの認識対象音声が入力される
    と、その認識対象音声が認識を行う上で適正な状態で入
    力されたか否かを判定し、その判定結果を話者に報知す
    る認識対象音声の入力状態報知処理プログラムを記録し
    た記録媒体であって、その処理プログラムは、 話者の発話した認識対象音声を入力してディジタル化し
    た音声データとして出力する手順と、 これによって得られた音声データを所定時間ごとに分析
    し、所定時間ごとの音声パワーを算出する手順と、 これによって得られた音声パワーに基づいて当該認識対
    象音声に対する有効音声区間を検出し、この有効音声区
    間の時間的な長さと、当該有効音声区間内の音声パワー
    の大きさによって、前記認識対象音声が適正な状態で入
    力されたか否かを判断し、適正であると判断した場合に
    は前記認識対象音声の入力終了直後に適正であることを
    示す信号を出力する手順と、 前記認識対象音声が適正であることを示す信号を受ける
    と、当該認識対象音声が適正であることを示す情報を出
    力する手順と、 を含むことを特徴とする認識対象音声の入力状態報知処
    理プログラムを記録した記録媒体。
  10. 【請求項10】 前記適正な状態で入力されたか否かの
    判定対象となる認識対象音声は、複数の単語を1つの組
    として発話された音声であって、この1つの組を構成す
    るそれぞれの単語に対するそれぞれの音声間に、各単語
    の区切りとしての間を有して発話された音声であること
    を特徴とする請求項9記載の認識対象音声の入力状態報
    知処理プログラムを記録した記録媒体。
  11. 【請求項11】 前記適正な状態で入力されたか否かの
    判定対象となる認識対象音声が適正であると判断した場
    合に発せられる情報は、前記1つの組を構成するそれぞ
    れの単語の区切りとしての間に瞬時的に出力される信号
    音、光、音声メッセージ、表示画面上での表示の少なく
    とも1つであることを特徴とする請求項10に記載の認
    識対象音声の入力状態報知処理プログラムを記録した記
    録媒体。
  12. 【請求項12】 前記1つの組を構成する複数の単語
    は、第1から第n(nは正の整数)までの単語群に属
    し、発話する順番は、第1の単語群に属する単語から順
    に第nの単語群に属する単語までと決められていて、前
    記有効音声区間の時間的な長さを判定する基準は、それ
    ぞれの単語群ごとに設定されることを特徴とする請求項
    10または11記載の認識対象音声の入力状態報知処理
    プログラムを記録した記録媒体。
JP25013998A 1998-09-03 1998-09-03 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体 Expired - Fee Related JP3757638B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP25013998A JP3757638B2 (ja) 1998-09-03 1998-09-03 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体
US09/379,358 US6338036B1 (en) 1998-09-03 1999-08-23 Confirmation notification by apparatus using audio recognition as to the acceptability of an input sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25013998A JP3757638B2 (ja) 1998-09-03 1998-09-03 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005325786A Division JP2006091912A (ja) 2005-11-10 2005-11-10 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000081891A true JP2000081891A (ja) 2000-03-21
JP3757638B2 JP3757638B2 (ja) 2006-03-22

Family

ID=17203409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25013998A Expired - Fee Related JP3757638B2 (ja) 1998-09-03 1998-09-03 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US6338036B1 (ja)
JP (1) JP3757638B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277189A (ja) * 2005-03-29 2006-10-12 Shiroshita Kogyo Kk 情報配信システム及び配信情報再生用端末
WO2013054459A1 (ja) * 2011-10-14 2013-04-18 パナソニック株式会社 ハウリング抑圧装置、補聴器、ハウリング抑圧方法、及び集積回路
WO2015167008A1 (ja) * 2014-05-02 2015-11-05 株式会社ソニー・コンピュータエンタテインメント 案内装置、案内方法、プログラム及び情報記憶媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113168834A (zh) * 2018-12-18 2021-07-23 日产自动车株式会社 声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
JP3462696B2 (ja) * 1997-03-18 2003-11-05 シャープ株式会社 画像形成装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277189A (ja) * 2005-03-29 2006-10-12 Shiroshita Kogyo Kk 情報配信システム及び配信情報再生用端末
WO2013054459A1 (ja) * 2011-10-14 2013-04-18 パナソニック株式会社 ハウリング抑圧装置、補聴器、ハウリング抑圧方法、及び集積回路
JPWO2013054459A1 (ja) * 2011-10-14 2015-03-30 パナソニックIpマネジメント株式会社 ハウリング抑圧装置、補聴器、ハウリング抑圧方法、及び集積回路
US9123322B2 (en) 2011-10-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Howling suppression device, hearing aid, howling suppression method, and integrated circuit
WO2015167008A1 (ja) * 2014-05-02 2015-11-05 株式会社ソニー・コンピュータエンタテインメント 案内装置、案内方法、プログラム及び情報記憶媒体
JPWO2015167008A1 (ja) * 2014-05-02 2017-04-20 株式会社ソニー・インタラクティブエンタテインメント 案内装置、案内方法、プログラム及び情報記憶媒体
US9870772B2 (en) 2014-05-02 2018-01-16 Sony Interactive Entertainment Inc. Guiding device, guiding method, program, and information storage medium

Also Published As

Publication number Publication date
JP3757638B2 (ja) 2006-03-22
US6338036B1 (en) 2002-01-08

Similar Documents

Publication Publication Date Title
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
US10623811B1 (en) Methods and systems for detecting audio output of associated device
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
WO2017168936A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2018168427A1 (ja) 学習装置、学習方法、音声合成装置、音声合成方法
IE86422B1 (en) Method for voice activation of a software agent from standby mode
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
US20210035554A1 (en) Information processing apparatus, information processing system, and information processing method, and program
US20210233556A1 (en) Voice processing device, voice processing method, and recording medium
KR20200025226A (ko) 전자 장치 및 그 제어 방법
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
KR101145401B1 (ko) 로봇의 음성인식 성능 평가장치 및 평가 방법
JP2001067091A (ja) 音声認識装置
JP2000081891A (ja) 認識対象音声の入力状態報知方法及び音声認識装置並びに認識対象音声の入力状態報知処理プログラムを記録した記録媒体
JP2007072331A (ja) 音声対話方法および音声対話システム
JP2016085420A (ja) 音声調整装置
JP2006251061A (ja) 音声対話装置および音声対話方法
KR20050015585A (ko) 향상된 음성인식 장치 및 방법
JP2006091912A (ja) 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
JPH0635497A (ja) 音声入力装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2008249893A (ja) 音声応答装置及びその方法
JP2011221101A (ja) コミュニケーション装置
JP2006126548A (ja) 音声合成出力装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050802

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100113

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120113

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120113

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130113

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130113

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140113

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees