JP2022117375A - 音声認識プログラム及び音声認識装置 - Google Patents

音声認識プログラム及び音声認識装置 Download PDF

Info

Publication number
JP2022117375A
JP2022117375A JP2021060936A JP2021060936A JP2022117375A JP 2022117375 A JP2022117375 A JP 2022117375A JP 2021060936 A JP2021060936 A JP 2021060936A JP 2021060936 A JP2021060936 A JP 2021060936A JP 2022117375 A JP2022117375 A JP 2022117375A
Authority
JP
Japan
Prior art keywords
time
utterance
voice
speech
retroactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021060936A
Other languages
English (en)
Inventor
正樹 中村
Masaki Nakamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisin Corp
Original Assignee
Aisin Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisin Corp filed Critical Aisin Corp
Publication of JP2022117375A publication Critical patent/JP2022117375A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

Figure 2022117375000001
【課題】第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できる音声認識プログラム及び音声認識装置を提供すること。
【解決手段】ユーザHから入力された音声Vから、第1発話と、その第1発話の直後の第2発話との開始時刻StT及び終了時刻EdTとがそれぞれ取得される。第2発話の開始時刻StTと第1発話の終了時刻EdTとの発話間隔ΔTに基づいて遡及時間Tが取得され、第2発話の開始時刻StTから遡及時間Tを遡った認識開始時刻StRより音声認識が開始される。これにより、第2発話V2の開始から確実に第2発話V2の音声認識を開始できる。従って、第1発話と第2発話とが連続して入力された場合でも第2発話の開始から確実に音声認識を開始できるので、第1発話と第2発話とを正確に音声認識できる。
【選択図】図3

Description

本発明は、音声認識プログラム及び音声認識装置に関するものである。
特許文献1には、入力された音声を音声認識し、その認識結果を用いて経路の案内や車両の運転等を行うシステム200が開示されている。そのシステム200には、ユーザが発話する音声を入力する音声入力装置21と、音声入力装置21から入力される一続きの音声を構成する始端から終端までの音声区間を検出する音声区間検出部11と、その音声区間検出部11で検出された音声区間内の音声を音声認識する音声認識部12とが設けられる。
先に第1音声(第1発話)が音声入力装置21に入力され、その後に第2音声(第2発話)が音声入力装置21に入力される場合、まず、音声区間検出部11によって第1音声に対応する第1音声区間が検出され、その第1音声区間の始端から音声認識部12による第1音声の音声認識が開始される。そして、第1音声区間の終端まで第1音声区間の音声認識が終了した後に、第2音声に対応する第2音声区間の検出および第2音声区間の始端からの音声認識が開始される。これによって、第1音声と第2音声とを区別して音声認識することができる。
国際公開第2019/058453号(例えば、段落0013-0039,図1,5)
第1音声と第2音声とが連続して発話された場合、第1音声と第2音声との間隔が短時間となる。かかる場合においては、第1音声区間の音声認識、第2音声区間の検出および第2音声区間の音声認識の開始も短時間に行う必要がある。よって、第1音声区間の音声認識に時間を要すると、その後に音声入力装置21から入力される第2音声の第2音声区間の検出の開始が遅れ、検出された第2音声区間の始端が実際の第2音声の始端よりも遅れて検出される虞がある。これによって、第2音声において始端で発話された内容の音声認識が欠落し、第2音声が正確に音声認識できない虞があるという問題点があった。
本発明は、上述した問題点を解決するためになされたものであり、第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できる音声認識プログラム及び音声認識装置を提供することを目的としている。
この目的を達成するために本発明の音声認識プログラムは、記憶部を備えたコンピュータに、音声認識処理を実行させるプログラムであって、前記記憶部を音声が記憶される音声記憶手段として機能させ、入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、その終了時刻取得ステップで取得された第1発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識ステップとを備えている。
また本発明の音声認識装置は、音声を入力する音声入力手段と、その音声入力手段で入力された音声を記憶する音声記憶手段と、その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、その終了時刻取得手段で取得された第1発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第2発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識手段と、を備えている。
請求項1記載の音声認識プログラムによれば、入力された音声が音声記憶手段に記憶され、音声記憶手段に記憶された第1発話の終了時刻と、第2発話の開始時刻とが取得され、それらの時間差である発話間隔に基づいた遡及時間が取得される。そして、音声記憶手段の音声において第2発話の開始時刻から遡及時間を遡った時刻から第2発話の音声認識が開始される。これにより、音声記憶手段に記憶される第2発話の開始から確実に音声認識を開始することができるので、第1発話と第2発話とが連続して入力された場合でも、それぞれを正確に音声認識できるという効果がある。また、遡及時間が第1発話と第2発話との発話間隔に応じて設定されるので、第2発話の開始から音声認識が開始できると共に、その第2発話の音声認識に与える第1発話の影響を最小限に抑制できるという効果もある。
請求項2記載の音声認識プログラムによれば、請求項1記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第1所定時間以下の場合は、即ち第1発話と第2発話との発話間隔が短く、これらが連続している場合である。かかる場合に、遡及時間が第1所定時間以上の第1遡及時間に設定されることで、第1発話の後に連続する第2発話の開始から確実に音声認識を開始できるという効果がある。
請求項3記載の音声認識プログラムによれば、請求項1又は2に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第2所定時間以上の場合、即ち第1発話と第2発話との発話間隔が長い場合に、その第2所定時間以下の第2遡及時間が遡及時間として取得されるので、第2発話の音声認識が開始されてから実際に第2発話が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第2発話が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第2発話を音声認識するためのコンピュータの処理時間が低減されるので、コンピュータの処理負荷を低減できるという効果がある。
請求項4記載の音声認識プログラムによれば、請求項3記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第1遡及時間が第1所定時間以上かつ第2所定時間以下の時間に設定されるので、第2発話の音声認識を開始する時刻が第1発話の開始時刻まで遡ることを抑制できる。これにより、第2発話と共に第1発話の全体が音声認識されるのを抑制できるという効果がある。
請求項5記載の音声認識プログラムによれば、請求項3又は4に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第2遡及時間が第1所定時間以上かつ第2所定時間以下の時間に設定される。これにより、第2発話の音声認識を開始する時刻が第1発話の開始時刻まで遡ることを抑制できる。これにより、第2発話と共に第1発話の全体が音声認識されるのを抑制できるという効果がある。
請求項6記載の音声認識プログラムによれば、請求項1から5のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発音間隔が第1所定時間と第2所定時間との間の場合、その発音間隔が遡及時間に設定される。これにより、第2発話の音声認識の開始が第1発話の終了時刻となるので、遡及時間を容易に取得できると共に、第2発話の開始から確実に音声認識を開始できるという効果がある。
請求項7記載の音声認識装置によれば、請求項1記載の音声認識プログラムと同様の効果を奏する。
携帯端末の外観図である。 音声の音量と、ユーザの発話の開始時刻および終了時刻とを表した図である。 (a)は、発話間隔が第1所定時間以下である場合の音声認識を開始するタイミングを表す図であり、(b)は、発話間隔が第2所定時間以上である場合の音声認識を開始するタイミングを表す図であり、(c)は、発話間隔が第1所定時間と第2所定時間との間である場合の音声認識を開始するタイミングを表す図である。 携帯端末の電気的構成を示すブロック図である。 (a)は、音声処理のフローチャートであり、(b)は、録音処理のフローチャートである。 音声認識処理のフローチャートである。
以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、図1を参照して、本実施形態における携帯端末1の構成を説明する。図1は、携帯端末1の外観図である。携帯端末1は、ユーザHが発する発話を音声認識する情報処理装置(コンピュータ)である。
携帯端末1では、音声Vが入力可能に構成され、入力された音声Vの音量に基づいてユーザHが発した発話かどうかが判断され、その発話毎に音声認識が実行される。なお、音声認識としては、公知の手法が採用されるが、例えば、音声Vを文字列に変換し、変換された文字列を該当する語句に置き換えるものが挙げられる。まず、図2を参照して、携帯端末1に入力された音声VからユーザHの発話の開始および終了を判断する手法を説明する。
図2は、音声Vの音量と、ユーザHの発話の開始時刻StT及び終了時刻EdTとを模式的に表した図である。図2においては横軸に時刻が、縦軸に音声Vの音量(dB)がそれぞれ設定され、その音量の最大値が「0dB」とされ、最小値が「-120dB」とされる。音量の範囲は0dBから-120dBまでに限られず、これ以外の範囲でも良い。
本実施形態の携帯端末1では、入力された音声Vの音量に基づいてユーザHが発話しているかどうかが判断される。具体的には、発話が開始したかを判定する音量の閾値である開始判定値St_Aと、発話が終了したかどうかを判定する音量の閾値である終了判定値Ed_Aとがそれぞれ設定される。開始判定値St_Aには、終了判定値Ed_Aより大きな音量が設定され、開始判定値St_Aとしては「-25dB」が、終了判定値Ed_Aとしては「-30dB」がそれぞれ例示される。
入力された音声Vの音量が開始判定値St_Aより小さい状態から開始判定値St_A以上となった場合に、ユーザHの発話が開始したと判断され、その際の時刻が開始時刻StTとされる。一方で、開始時刻StT以後に、終了判定値Ed_A以下となった場合にユーザHの発話が終了したと判断され、その時刻が終了時刻EdTとされる。即ち開始時刻StTから終了時刻EdTまでの間に、ユーザHの発話がされていたと判断される。
開始判定値St_Aが終了判定値Ed_Aより大きな音量が設定されることで、周囲の環境音と発話の開始とを明確に区別し、周囲の環境音がユーザHの発音と誤認識されるのを抑制できる。一方で、終了判定値Ed_Aが開始判定値St_Aより小さな音量が設定されることで、ユーザHが発話していると判断されている状況において、発話による音量が一時的に低下することで開始判定値St_Aを下回った場合でも、発話が継続していると判断できる。これらにより、ユーザHの発話の開始および終了を適切に取得できる。
このように取得されたユーザHの発話の開始時刻StT及び終了時刻EdTに基づいて、その発話の音声認識が実行される。本実施形態では、ユーザHによる発話が連続した場合に、先の発話と後の発話との時間差である発話間隔ΔTに応じて、後の発話の音声認識を開始するタイミングが設定される。図3を参照して、音声認識を開始するタイミングを説明する。
図3(a)は、発話間隔ΔTが第1所定時間x1以下である場合の音声認識を開始するタイミングを表す図であり、図3(b)は、発話間隔ΔTが第2所定時間x2以上である場合の音声認識を開始するタイミングを表す図であり、図3(c)は、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合の音声認識を開始するタイミングを表す図である。
図3(a)~(c)においては、ユーザHが「おはようございます。」と発話したものが第1発話V1とされ、その第1発話の直後にユーザHが「今日は晴れですね。」と発話したものが第2発話V2とされる。第1発話V1の終了時刻EdTと第2発話V2の開始時刻StTとの時間差が第1発話V1と第2発話V2との発話間隔ΔTとされ、その発話間隔ΔTの大小に応じて遡及時間Tが算出される。
ここで携帯端末1に入力される音声Vは、ユーザHの発話の有無に依らず図4で後述の音声バッファ11bに記憶される。その音声バッファ11bの音声Vにおける、第2発話V2の開始時刻StTから遡及時間Tを遡った時刻である認識開始時刻StRより、第2発話V2の音声認識が開始される。
まず、図3(a)を参照して、第1発話V1の直後に第2発話V2が開始された場合の遡及時間Tを説明する。図3(a)は、第1発話V1の直後に第2発話V2が開始された場合、即ち上記の発話間隔ΔTが第1所定時間x1以下の場合を表している。第1所定時間x1としては「0.1秒間」が例示される。
このように、発話間隔ΔTが第1所定時間x1以下で短く、第1発話V1と第2発話V2とが連続している場合には、遡及時間Tとして第1所定時間x1以上の第1遡及時間Tx1が設定される。第1遡及時間Tx1としては「0.5秒間」が例示される。これにより、第2発話の認識開始時刻StRを第2発話の開始時刻StTよりも以前のタイミングとできるので、第2発話の開始から確実に音声認識を開始できる。
この際、第1発話の終了時刻EdT付近の発話(例えば「おはようございます。」の「す」)が第2発話の認識開始時刻StRに含まれることがある。かかる場合は、第2発話の認識開始時刻StRより開始した音声認識した結果から、第2発話の開始時刻StT以前の認識結果を除外や除去することで、第2発話の開始時刻StTからの音声認識の結果のみを出力しても良い。
次に図3(b)を参照して、第1発話V1と第2発話V2との発話間隔ΔTが長い場合を説明する。図3(b)は、発話間隔ΔTが第2所定時間x2以上の場合を表している。第2所定時間x2としては「3秒間」が例示される。このように、第1発話V1と第2発話V2との発話間隔ΔTが第2所定時間x2以上の長い場合には、遡及時間Tとして第2所定時間x2以下の第2遡及時間Tx2が設定される。第1遡及時間Tx1としては「2秒間」が例示される。
これにより、第2発話V2の音声認識が開始されてから実際に第2発話V2が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第2発話V2が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第2発話V2を音声認識するための携帯端末1(具体的に図4で後述のCPU10)の処理時間が低減されるので、携帯端末1の処理負荷を低減できる。
次に図3(c)を参照して、第1発話V1と第2発話V2との発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合を説明する。かかる場合には、遡及時間Tとして発話間隔ΔTが設定される。これにより、第2発話V2の認識開始時刻StRが第1発話V1の終了時刻EdTとなるので、遡及時間Tを容易に取得できると共に、第2発話V2の開始から確実に音声認識を開始できる。
ここで、第1遡及時間Tx1及び第2遡及時間Tx2は、第1所定時間x1以上かつ第2所定時間x2以下の時間に設定される。これにより、第2発話の認識開始時刻StRが第1発話V1の開始時刻StTまで遡ることを抑制できるので、第2発話V2と共に第1発話V1の全体が音声認識されるのを抑制できる。
以上の通り、第2発話V2の開始時刻StTから、その直前の第1発話V1と第2発話V2との発話間隔ΔTに応じた遡及時間Tを遡った認識開始時刻StRより音声認識を開始することで、第2発話V2の開始から確実に第2発話の音声認識を開始できる。これにより、第1発話と第2発話とが連続して入力された場合でも、第2発話の開始から確実に音声認識を開始できるので、第1発話と第2発話とを正確に音声認識できる。
また、ユーザHの第2発話を開始した際の音声Vの音量が小さく、第2発話V2の開始時刻StTと判断された時刻では実際にはユーザHが発話している場合がある。かかる場合でも、第2発話V2の開始時刻StTから遡及時間Tを遡った時刻から音声認識を開始することで、第2発話V2の開始時刻StTと判断される以前から実際にはユーザHが発話していた音声Vの音声認識の取りこぼしを抑制できる。
なお、第1所定時間x1は0.1秒間に限られず、第2所定時間x2以下であれば、0.1秒間以上でも0.1秒間以下でも良い。第2所定時間x2は3秒間に限られず、第1所定時間x1以上であれば、3秒間以上でも3秒間以下でも良い。また、第1遡及時間Tx1は0.5秒間に限られず、上記した第1所定時間x1以上かつ第2所定時間x2以下の時間であれば、0.5秒間以上でも0.5秒間以下でも良い。同様に第2遡及時間Tx2は2秒間に限られず、第1所定時間x1以上かつ第2所定時間x2以下の時間であれば、2秒間以上でも2秒間以下でも良い。更に第1遡及時間Tx1を第2遡及時間Tx2よりも短い時間としたが、これに限られない。第1遡及時間Tx1と第2遡及時間Tx2とを同じ時間としても良いし、第1遡及時間Tx1を第2遡及時間Tx2よりも長い時間としても良い。
次に、図4を参照して、携帯端末1の電気的構成を説明する。図4は、携帯端末1の電気的構成を示すブロック図である。図4に示す通り、携帯端末1は、CPU10と、フラッシュROM11と、RAM12とを有し、これらはバスライン13を介して入出力ポート14にそれぞれ接続されている。入出力ポート14には更に、音声Vを入力するマイク15と、音声認識の認識結果等が表示されるLCD16と、ユーザHからの指示が入力されるタッチパネル17とが接続される。
CPU10は、バスライン13により接続された各部を制御する演算装置である。フラッシュROM11は、書き換え可能な不揮発性のメモリであり、音声認識プログラム11aと、音声Vが記憶される音声バッファ11bとが保存される。CPU10によって音声認識プログラム11aが実行されると、図5の音声処理が実行される。RAM12は、CPU10の音声認識プログラム11aの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、上記した遡及時間Tが記憶される遡及時間メモリ12aが設けられる。
次に、図5,6を参照して、携帯端末1のCPU10で実行される処理を説明する。図5(a)は、音声処理のフローチャートである。音声処理は、タッチパネル17等を介してユーザHから音声認識プログラム11aを実行する指示が入力された場合に実行される処理である。
音声処理はまず、音声バッファ11bの内容をクリアし(S1)、音声取得時刻と、上記した開始時刻StT及び終了時刻EdTとをそれぞれ0に設定する(S2)。音声取得時刻は、音声Vのサンプリング周期(例えば1/44100秒)が1単位時間とした時刻であり、音声バッファ11bに記憶された音声Vを0秒、即ち音声バッファ11bへの音声Vの記憶を開始した時刻から順に上記のサンプリング周期間隔で取得するための時刻情報として用いられる。
S2の処理の後、今回音量および前回音量に音量の最小値である-120dBを設定する(S3)。今回音量には、発話の開始時刻StT及び終了時刻EdTを判断するための音量が記憶され、前回音量にはその今回音量の前回の音量が記憶される。
S3の処理の後、録音処理を開始する(S4)。録音処理は、音声Vのサンプリング周期毎に実行され、マイク15から入力された音声Vを、サンプリング周期毎に音声バッファ11bへ記憶させる処理である。S4の処理によって、録音処理の定期的な実行が開始される。ここで、図5(b)を参照して録音処理を説明する。
図5(b)は、録音処理のフローチャートである。録音処理は、上記した通り、音声Vのサンプリング周期毎に実行される割込処理である。録音処理は、マイク15から取得した音声Vを音声バッファ11bに追加し(S20)、終了する。これにより、音声バッファ11bには、上記のサンプリング周期毎に取得された音声Vが記憶される。
図5(a)に戻る。S4の処理の後、音声バッファ11bから音声取得時刻における音声Vの音量を取得し、今回音量に設定する(S5)。S5の処理の後、音声認識処理(S6)を実行する。ここで、図6を参照して音声認識処理を説明する。
図6は、音声認識処理のフローチャートである。音声認識処理はまず、前回音量が図2で上記した開始判定値St_Aより小さく、且つ、音声取得時刻における今回音量が開始判定値St_A以上かを確認する(S30)。即ち音声バッファ11bの音声Vにおいて、開始判定値St_Aより小さい状態から開始判定値St_A以上となり、発話が開始した開始時刻StTのタイミングであるかを確認する。
S30の処理において、前回音量が開始判定値St_Aより小さく、且つ、音声取得時刻における今回音量が開始判定値St_A以上の場合は(S30:Yes)、開始時刻StTに音声取得時刻を設定する(S31)。S31の処理の後、開始時刻StTから後述のS39,S40の処理で設定される図3で上記した終了時刻EdTを減算することで、発話間隔ΔTを算出する(S32)。S32の処理の後、算出された発話間隔ΔTを確認する(S33)。
S33の処理において、発話間隔ΔTが第1所定時間x1以下の場合は(ΔT≦x1)、遡及時間メモリ12aに第1遡及時間Tx1を設定し(S34)、発話間隔ΔTが第2所定時間x2以上の場合は(ΔT≧x2)、遡及時間メモリ12aに第2遡及時間Tx2を設定し(S35)、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間である場合は(x1<ΔT<x2)、遡及時間メモリ12aに発話間隔ΔTを設定する(S36)。
S34~S36の処理の後、音声バッファ11bにおいてS31の処理で設定された開始時刻StTから遡及時間メモリ12aの遡及時間Tだけ遡った時刻(即ち認識開始時刻StR)から音声認識を実施する(S37)。これにより、図3(a)~(c)で上記した発話間隔ΔTに応じた遡及時間Tが遡及時間メモリ12aに設定され、開始時刻StTからその遡及時間Tから音声認識が開始される。S37の処理によって音声認識された結果をLCD16に表示しても良いし、図示しない通信装置を介して、他の携帯端末1等の情報処理装置に送信しても良い。
S30の処理において、前回音量が開始判定値St_A以上の場合、または、今回音量が開始判定値St_Aより小さい場合は(S30:No)、S31~S37の処理をスキップする。S30,S37の処理の後、前回音量が終了判定値Ed_Aより大きく且つ今回音量が終了判定値Ed_A以下かを確認する(S38)。
S38の処理において、前回音量が終了判定値Ed_Aより大きく且つ今回音量が終了判定値Ed_A以下の場合は(S38:Yes)、音声取得時刻が図2で上記した発話が終了した終了時刻EdTのタイミングであるので、終了時刻EdTに音声取得時刻を設定する(S39)。一方で、前回音量が終了判定値Ed_A以下または今回音量が終了判定値Ed_Aより大きい場合は(S38:No)、S39の処理をスキップする。S38,S39の処理の後、音声認識処理を終了する。
図5(a)に戻る。S6の音声認識処理の後、音声取得時刻にサンプリング周期を加算し、音声取得時刻を音声バッファ11bから音量を取得する次のタイミングに進める(S7)。S7の処理の後、タッチパネル17を介してユーザHから音声処理の終了する指示を取得したかを確認する(S8)。S8の処理において、音声処理の終了の指示を取得しなかった場合は(S8:No)、S5以下の処理を繰り返し、音声処理の終了の指示を取得した場合は(S8:Yes)、音声処理を終了する。
以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。
上記実施形態では、遡及時間Tに、発話間隔ΔTが第1所定時間x1以下の場合は第1遡及時間Tx1を、発話間隔ΔTが第2所定時間x2以上の場合は第2遡及時間Tx2を、発話間隔ΔTが第1所定時間x1と第2所定時間x2との間の場合は発話間隔ΔTをそれぞれ設定したが、これに限られない。発話間隔ΔTによらず、遡及時間Tとして、発話間隔ΔTを設定しても良いし、発話間隔ΔTに所定の係数(例えば0.8)を乗算した時間を設定しても良いし、発話間隔ΔTに所定の時間(例えば0.5秒間)を加算した時間を設定しても良い。また、発話間隔ΔTによらず、遡及時間Tとして、第1遡及時間Tx1又は第2遡及時間Tx2を設定しても良い。
上記実施形態では、発話の開始時刻StT及び終了時刻EdTを音声Vの音量で判断したがこれに限られない。例えば、音声Vにおいて、人間の音声による周波数帯域(例えば、100Hz~1000Hz)が観測され始めた時刻を発話の開始時刻StTと判断し、音声Vにおいて該周波数帯域が観測されている状態から、観測されなくなった時刻を終了時刻EdTと判断しても良い。
上記実施形態では、マイク15から入力されたものを音声Vとしたが、これに限られない。例えば、予めフラッシュROM11に記憶された音声データを音声Vとしても良いし、図示しない通信装置を介して他の携帯端末1等から送信された音声データを音声Vとしても良い。
上記実施形態では、音声取得時刻を、サンプリング周期を1単位時間とし、音声バッファ11bからサンプリング周期間隔で音量を取得したが、これに限られない。例えば、音声取得時刻の1単位時間を1秒間とし、音声バッファ11bから音量を1秒間隔で取得しても良い。
上記実施形態では、音声認識プログラム11aが組み込まれた携帯端末1を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置(コンピュータ)によって音声認識プログラム11aを実行する構成としても良い。また、音声認識プログラム11aをROMやICチップ等に記憶し、音声認識プログラム11aのみを実行する専用装置に、本発明を適用しても良い。
1 携帯端末(コンピュータ)
11 フラッシュROM(記憶部)
11b 音声バッファ(音声記憶手段)
11a 音声認識プログラム
V 音声
V1 第1発話
V2 第2発話
S20 音声記憶ステップ
StT 開始時刻
EdT 終了時刻
ΔT 発話間隔
x1 第1所定時間
x2 第2所定時間
T 遡及時間
Tx1 第1遡及時間
Tx2 第2遡及時間
S31 開始時刻取得ステップ、開始時刻取得手段
S39 終了時刻取得ステップ、終了時刻取得手段
S32 間隔取得ステップ、間隔取得手段
S34~S36 遡及時間取得ステップ、遡及時間取得手段
S37 音声認識ステップ、音声認識手段

Claims (7)

  1. 記憶部を備えたコンピュータに、音声認識処理を実行させる音声認識プログラムであって、
    前記記憶部を音声が記憶される音声記憶手段として機能させ、
    入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、
    前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、
    前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、
    その終了時刻取得ステップで取得された第1発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、
    その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、
    前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第2発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識ステップとを備えていることを特徴とする音声認識プログラム。
  2. 前記遡及時間取得ステップは、前記間隔取得ステップで取得された発話間隔が第1所定時間以下の場合は、前記第1所定時間以上の時間である第1遡及時間を遡及時間として取得するものであることを特徴とする請求項1記載の音声認識プログラム。
  3. 前記遡及時間取得ステップは、前記間隔取得ステップで取得された発話間隔が第2所定時間以上の場合は、前記第2所定時間以下の時間である第2遡及時間を遡及時間として取得するものであることを特徴とする請求項1又は2に記載の音声認識プログラム。
  4. 前記第1遡及時間は、前記第1所定時間以上かつ前記第2所定時間以下の時間であることを特徴とする請求項3記載の音声認識プログラム。
  5. 前記第2遡及時間は、前記第1所定時間以上かつ前記第2所定時間以下の時間であることを特徴とする請求項3又は4に記載の音声認識プログラム。
  6. 前記遡及時間取得ステップは、前記間隔取得ステップで取得された発音間隔が第1所定時間と第2所定時間との間である場合は、遡及時間として前記発音間隔を取得するものであることを特徴とする請求項1から5のいずれかに記載の音声認識プログラム。
  7. 音声を入力する音声入力手段と、
    その音声入力手段で入力された音声を記憶する音声記憶手段と、
    その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、
    前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、
    その終了時刻取得手段で取得された第1発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第1発話の後に入力される第2発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、
    その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第2発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、
    前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第2発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第2発話の音声認識を開始する音声認識手段と、を備えていることを特徴とする音声認識装置。
JP2021060936A 2021-01-29 2021-03-31 音声認識プログラム及び音声認識装置 Pending JP2022117375A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021013495 2021-01-29
JP2021013495 2021-01-29

Publications (1)

Publication Number Publication Date
JP2022117375A true JP2022117375A (ja) 2022-08-10

Family

ID=82750009

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2021060936A Pending JP2022117375A (ja) 2021-01-29 2021-03-31 音声認識プログラム及び音声認識装置
JP2021060947A Pending JP2022117376A (ja) 2021-01-29 2021-03-31 音声認識プログラム及び音声認識装置
JP2021060919A Pending JP2022117374A (ja) 2021-01-29 2021-03-31 音声認識プログラム及び音声認識装置

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2021060947A Pending JP2022117376A (ja) 2021-01-29 2021-03-31 音声認識プログラム及び音声認識装置
JP2021060919A Pending JP2022117374A (ja) 2021-01-29 2021-03-31 音声認識プログラム及び音声認識装置

Country Status (1)

Country Link
JP (3) JP2022117375A (ja)

Also Published As

Publication number Publication date
JP2022117376A (ja) 2022-08-10
JP2022117374A (ja) 2022-08-10

Similar Documents

Publication Publication Date Title
KR100742888B1 (ko) 음성 인식 방법
US8315873B2 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP6495015B2 (ja) 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
EP1477965A1 (en) Spoken keyword recognition apparatus and method
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2022117375A (ja) 音声認識プログラム及び音声認識装置
JP2009104047A (ja) 情報処理方法及び情報処理装置
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP4798039B2 (ja) 音声対話装置および方法
JP3578587B2 (ja) 音声認識装置および音声認識方法
JP4437047B2 (ja) 音声対話装置
JPH0950288A (ja) 音声認識装置及び音声認識方法
JPH08263092A (ja) 応答音声生成方法および音声対話システム
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP2010204442A (ja) 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体
JP3360978B2 (ja) 音声認識装置
KR102632806B1 (ko) Stt결과 조기 확정을 위한 음성 인식 방법 및 장치
JP2005084589A (ja) 音声認識装置
JP2000099070A (ja) 音声認識装置及びその方法、コンピュータ可読メモリ
EP1426924A1 (en) Speaker recognition for rejecting background speakers
JP2010211122A (ja) 音声認識装置及び方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240507