JP2022117375A

JP2022117375A - 音声認識プログラム及び音声認識装置

Info

Publication number: JP2022117375A
Application number: JP2021060936A
Authority: JP
Inventors: 正樹中村; Masaki Nakamura
Original assignee: Aisin Corp
Current assignee: Aisin Corp
Priority date: 2021-01-29
Filing date: 2021-03-31
Publication date: 2022-08-10
Also published as: JP2022117376A; JP2022117374A

Abstract

【課題】第１発話と第２発話とが連続して入力された場合でも、それぞれを正確に音声認識できる音声認識プログラム及び音声認識装置を提供すること。
【解決手段】ユーザＨから入力された音声Ｖから、第１発話と、その第１発話の直後の第２発話との開始時刻ＳｔＴ及び終了時刻ＥｄＴとがそれぞれ取得される。第２発話の開始時刻ＳｔＴと第１発話の終了時刻ＥｄＴとの発話間隔ΔＴに基づいて遡及時間Ｔが取得され、第２発話の開始時刻ＳｔＴから遡及時間Ｔを遡った認識開始時刻ＳｔＲより音声認識が開始される。これにより、第２発話Ｖ２の開始から確実に第２発話Ｖ２の音声認識を開始できる。従って、第１発話と第２発話とが連続して入力された場合でも第２発話の開始から確実に音声認識を開始できるので、第１発話と第２発話とを正確に音声認識できる。
【選択図】図３

Description

本発明は、音声認識プログラム及び音声認識装置に関するものである。

特許文献１には、入力された音声を音声認識し、その認識結果を用いて経路の案内や車両の運転等を行うシステム２００が開示されている。そのシステム２００には、ユーザが発話する音声を入力する音声入力装置２１と、音声入力装置２１から入力される一続きの音声を構成する始端から終端までの音声区間を検出する音声区間検出部１１と、その音声区間検出部１１で検出された音声区間内の音声を音声認識する音声認識部１２とが設けられる。

先に第１音声（第１発話）が音声入力装置２１に入力され、その後に第２音声（第２発話）が音声入力装置２１に入力される場合、まず、音声区間検出部１１によって第１音声に対応する第１音声区間が検出され、その第１音声区間の始端から音声認識部１２による第１音声の音声認識が開始される。そして、第１音声区間の終端まで第１音声区間の音声認識が終了した後に、第２音声に対応する第２音声区間の検出および第２音声区間の始端からの音声認識が開始される。これによって、第１音声と第２音声とを区別して音声認識することができる。

国際公開第２０１９／０５８４５３号（例えば、段落００１３－００３９，図１，５）

第１音声と第２音声とが連続して発話された場合、第１音声と第２音声との間隔が短時間となる。かかる場合においては、第１音声区間の音声認識、第２音声区間の検出および第２音声区間の音声認識の開始も短時間に行う必要がある。よって、第１音声区間の音声認識に時間を要すると、その後に音声入力装置２１から入力される第２音声の第２音声区間の検出の開始が遅れ、検出された第２音声区間の始端が実際の第２音声の始端よりも遅れて検出される虞がある。これによって、第２音声において始端で発話された内容の音声認識が欠落し、第２音声が正確に音声認識できない虞があるという問題点があった。

本発明は、上述した問題点を解決するためになされたものであり、第１発話と第２発話とが連続して入力された場合でも、それぞれを正確に音声認識できる音声認識プログラム及び音声認識装置を提供することを目的としている。

この目的を達成するために本発明の音声認識プログラムは、記憶部を備えたコンピュータに、音声認識処理を実行させるプログラムであって、前記記憶部を音声が記憶される音声記憶手段として機能させ、入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、その終了時刻取得ステップで取得された第１発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第１発話の後に入力される第２発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第２発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第２発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第２発話の音声認識を開始する音声認識ステップとを備えている。

また本発明の音声認識装置は、音声を入力する音声入力手段と、その音声入力手段で入力された音声を記憶する音声記憶手段と、その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、その終了時刻取得手段で取得された第１発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第１発話の後に入力される第２発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第２発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第２発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第２発話の音声認識を開始する音声認識手段と、を備えている。

請求項１記載の音声認識プログラムによれば、入力された音声が音声記憶手段に記憶され、音声記憶手段に記憶された第１発話の終了時刻と、第２発話の開始時刻とが取得され、それらの時間差である発話間隔に基づいた遡及時間が取得される。そして、音声記憶手段の音声において第２発話の開始時刻から遡及時間を遡った時刻から第２発話の音声認識が開始される。これにより、音声記憶手段に記憶される第２発話の開始から確実に音声認識を開始することができるので、第１発話と第２発話とが連続して入力された場合でも、それぞれを正確に音声認識できるという効果がある。また、遡及時間が第１発話と第２発話との発話間隔に応じて設定されるので、第２発話の開始から音声認識が開始できると共に、その第２発話の音声認識に与える第１発話の影響を最小限に抑制できるという効果もある。

請求項２記載の音声認識プログラムによれば、請求項１記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第１所定時間以下の場合は、即ち第１発話と第２発話との発話間隔が短く、これらが連続している場合である。かかる場合に、遡及時間が第１所定時間以上の第１遡及時間に設定されることで、第１発話の後に連続する第２発話の開始から確実に音声認識を開始できるという効果がある。

請求項３記載の音声認識プログラムによれば、請求項１又は２に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発話間隔が第２所定時間以上の場合、即ち第１発話と第２発話との発話間隔が長い場合に、その第２所定時間以下の第２遡及時間が遡及時間として取得されるので、第２発話の音声認識が開始されてから実際に第２発話が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第２発話が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第２発話を音声認識するためのコンピュータの処理時間が低減されるので、コンピュータの処理負荷を低減できるという効果がある。

請求項４記載の音声認識プログラムによれば、請求項３記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第１遡及時間が第１所定時間以上かつ第２所定時間以下の時間に設定されるので、第２発話の音声認識を開始する時刻が第１発話の開始時刻まで遡ることを抑制できる。これにより、第２発話と共に第１発話の全体が音声認識されるのを抑制できるという効果がある。

請求項５記載の音声認識プログラムによれば、請求項３又は４に記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。第２遡及時間が第１所定時間以上かつ第２所定時間以下の時間に設定される。これにより、第２発話の音声認識を開始する時刻が第１発話の開始時刻まで遡ることを抑制できる。これにより、第２発話と共に第１発話の全体が音声認識されるのを抑制できるという効果がある。

請求項６記載の音声認識プログラムによれば、請求項１から５のいずれかに記載の音声認識プログラムの奏する効果に加え、次の効果を奏する。発音間隔が第１所定時間と第２所定時間との間の場合、その発音間隔が遡及時間に設定される。これにより、第２発話の音声認識の開始が第１発話の終了時刻となるので、遡及時間を容易に取得できると共に、第２発話の開始から確実に音声認識を開始できるという効果がある。

請求項７記載の音声認識装置によれば、請求項１記載の音声認識プログラムと同様の効果を奏する。

携帯端末の外観図である。音声の音量と、ユーザの発話の開始時刻および終了時刻とを表した図である。（ａ）は、発話間隔が第１所定時間以下である場合の音声認識を開始するタイミングを表す図であり、（ｂ）は、発話間隔が第２所定時間以上である場合の音声認識を開始するタイミングを表す図であり、（ｃ）は、発話間隔が第１所定時間と第２所定時間との間である場合の音声認識を開始するタイミングを表す図である。携帯端末の電気的構成を示すブロック図である。（ａ）は、音声処理のフローチャートであり、（ｂ）は、録音処理のフローチャートである。音声認識処理のフローチャートである。

以下、本発明の好ましい実施形態について、添付図面を参照して説明する。まず、図１を参照して、本実施形態における携帯端末１の構成を説明する。図１は、携帯端末１の外観図である。携帯端末１は、ユーザＨが発する発話を音声認識する情報処理装置（コンピュータ）である。

携帯端末１では、音声Ｖが入力可能に構成され、入力された音声Ｖの音量に基づいてユーザＨが発した発話かどうかが判断され、その発話毎に音声認識が実行される。なお、音声認識としては、公知の手法が採用されるが、例えば、音声Ｖを文字列に変換し、変換された文字列を該当する語句に置き換えるものが挙げられる。まず、図２を参照して、携帯端末１に入力された音声ＶからユーザＨの発話の開始および終了を判断する手法を説明する。

図２は、音声Ｖの音量と、ユーザＨの発話の開始時刻ＳｔＴ及び終了時刻ＥｄＴとを模式的に表した図である。図２においては横軸に時刻が、縦軸に音声Ｖの音量（ｄＢ）がそれぞれ設定され、その音量の最大値が「０ｄＢ」とされ、最小値が「－１２０ｄＢ」とされる。音量の範囲は０ｄＢから－１２０ｄＢまでに限られず、これ以外の範囲でも良い。

本実施形態の携帯端末１では、入力された音声Ｖの音量に基づいてユーザＨが発話しているかどうかが判断される。具体的には、発話が開始したかを判定する音量の閾値である開始判定値Ｓｔ＿Ａと、発話が終了したかどうかを判定する音量の閾値である終了判定値Ｅｄ＿Ａとがそれぞれ設定される。開始判定値Ｓｔ＿Ａには、終了判定値Ｅｄ＿Ａより大きな音量が設定され、開始判定値Ｓｔ＿Ａとしては「－２５ｄＢ」が、終了判定値Ｅｄ＿Ａとしては「－３０ｄＢ」がそれぞれ例示される。

入力された音声Ｖの音量が開始判定値Ｓｔ＿Ａより小さい状態から開始判定値Ｓｔ＿Ａ以上となった場合に、ユーザＨの発話が開始したと判断され、その際の時刻が開始時刻ＳｔＴとされる。一方で、開始時刻ＳｔＴ以後に、終了判定値Ｅｄ＿Ａ以下となった場合にユーザＨの発話が終了したと判断され、その時刻が終了時刻ＥｄＴとされる。即ち開始時刻ＳｔＴから終了時刻ＥｄＴまでの間に、ユーザＨの発話がされていたと判断される。

開始判定値Ｓｔ＿Ａが終了判定値Ｅｄ＿Ａより大きな音量が設定されることで、周囲の環境音と発話の開始とを明確に区別し、周囲の環境音がユーザＨの発音と誤認識されるのを抑制できる。一方で、終了判定値Ｅｄ＿Ａが開始判定値Ｓｔ＿Ａより小さな音量が設定されることで、ユーザＨが発話していると判断されている状況において、発話による音量が一時的に低下することで開始判定値Ｓｔ＿Ａを下回った場合でも、発話が継続していると判断できる。これらにより、ユーザＨの発話の開始および終了を適切に取得できる。

このように取得されたユーザＨの発話の開始時刻ＳｔＴ及び終了時刻ＥｄＴに基づいて、その発話の音声認識が実行される。本実施形態では、ユーザＨによる発話が連続した場合に、先の発話と後の発話との時間差である発話間隔ΔＴに応じて、後の発話の音声認識を開始するタイミングが設定される。図３を参照して、音声認識を開始するタイミングを説明する。

図３（ａ）は、発話間隔ΔＴが第１所定時間ｘ１以下である場合の音声認識を開始するタイミングを表す図であり、図３（ｂ）は、発話間隔ΔＴが第２所定時間ｘ２以上である場合の音声認識を開始するタイミングを表す図であり、図３（ｃ）は、発話間隔ΔＴが第１所定時間ｘ１と第２所定時間ｘ２との間である場合の音声認識を開始するタイミングを表す図である。

図３（ａ）～（ｃ）においては、ユーザＨが「おはようございます。」と発話したものが第１発話Ｖ１とされ、その第１発話の直後にユーザＨが「今日は晴れですね。」と発話したものが第２発話Ｖ２とされる。第１発話Ｖ１の終了時刻ＥｄＴと第２発話Ｖ２の開始時刻ＳｔＴとの時間差が第１発話Ｖ１と第２発話Ｖ２との発話間隔ΔＴとされ、その発話間隔ΔＴの大小に応じて遡及時間Ｔが算出される。

ここで携帯端末１に入力される音声Ｖは、ユーザＨの発話の有無に依らず図４で後述の音声バッファ１１ｂに記憶される。その音声バッファ１１ｂの音声Ｖにおける、第２発話Ｖ２の開始時刻ＳｔＴから遡及時間Ｔを遡った時刻である認識開始時刻ＳｔＲより、第２発話Ｖ２の音声認識が開始される。

まず、図３（ａ）を参照して、第１発話Ｖ１の直後に第２発話Ｖ２が開始された場合の遡及時間Ｔを説明する。図３（ａ）は、第１発話Ｖ１の直後に第２発話Ｖ２が開始された場合、即ち上記の発話間隔ΔＴが第１所定時間ｘ１以下の場合を表している。第１所定時間ｘ１としては「０．１秒間」が例示される。

このように、発話間隔ΔＴが第１所定時間ｘ１以下で短く、第１発話Ｖ１と第２発話Ｖ２とが連続している場合には、遡及時間Ｔとして第１所定時間ｘ１以上の第１遡及時間Ｔｘ１が設定される。第１遡及時間Ｔｘ１としては「０．５秒間」が例示される。これにより、第２発話の認識開始時刻ＳｔＲを第２発話の開始時刻ＳｔＴよりも以前のタイミングとできるので、第２発話の開始から確実に音声認識を開始できる。

この際、第１発話の終了時刻ＥｄＴ付近の発話（例えば「おはようございます。」の「す」）が第２発話の認識開始時刻ＳｔＲに含まれることがある。かかる場合は、第２発話の認識開始時刻ＳｔＲより開始した音声認識した結果から、第２発話の開始時刻ＳｔＴ以前の認識結果を除外や除去することで、第２発話の開始時刻ＳｔＴからの音声認識の結果のみを出力しても良い。

次に図３（ｂ）を参照して、第１発話Ｖ１と第２発話Ｖ２との発話間隔ΔＴが長い場合を説明する。図３（ｂ）は、発話間隔ΔＴが第２所定時間ｘ２以上の場合を表している。第２所定時間ｘ２としては「３秒間」が例示される。このように、第１発話Ｖ１と第２発話Ｖ２との発話間隔ΔＴが第２所定時間ｘ２以上の長い場合には、遡及時間Ｔとして第２所定時間ｘ２以下の第２遡及時間Ｔｘ２が設定される。第１遡及時間Ｔｘ１としては「２秒間」が例示される。

これにより、第２発話Ｖ２の音声認識が開始されてから実際に第２発話Ｖ２が開始されるまでのタイムラグが拡大するのを抑制できる。これにより、第２発話Ｖ２が開始されるまでの周囲の環境音が誤って音声認識されるのを抑制できると共に、第２発話Ｖ２を音声認識するための携帯端末１（具体的に図４で後述のＣＰＵ１０）の処理時間が低減されるので、携帯端末１の処理負荷を低減できる。

次に図３（ｃ）を参照して、第１発話Ｖ１と第２発話Ｖ２との発話間隔ΔＴが第１所定時間ｘ１と第２所定時間ｘ２との間である場合を説明する。かかる場合には、遡及時間Ｔとして発話間隔ΔＴが設定される。これにより、第２発話Ｖ２の認識開始時刻ＳｔＲが第１発話Ｖ１の終了時刻ＥｄＴとなるので、遡及時間Ｔを容易に取得できると共に、第２発話Ｖ２の開始から確実に音声認識を開始できる。

ここで、第１遡及時間Ｔｘ１及び第２遡及時間Ｔｘ２は、第１所定時間ｘ１以上かつ第２所定時間ｘ２以下の時間に設定される。これにより、第２発話の認識開始時刻ＳｔＲが第１発話Ｖ１の開始時刻ＳｔＴまで遡ることを抑制できるので、第２発話Ｖ２と共に第１発話Ｖ１の全体が音声認識されるのを抑制できる。

以上の通り、第２発話Ｖ２の開始時刻ＳｔＴから、その直前の第１発話Ｖ１と第２発話Ｖ２との発話間隔ΔＴに応じた遡及時間Ｔを遡った認識開始時刻ＳｔＲより音声認識を開始することで、第２発話Ｖ２の開始から確実に第２発話の音声認識を開始できる。これにより、第１発話と第２発話とが連続して入力された場合でも、第２発話の開始から確実に音声認識を開始できるので、第１発話と第２発話とを正確に音声認識できる。

また、ユーザＨの第２発話を開始した際の音声Ｖの音量が小さく、第２発話Ｖ２の開始時刻ＳｔＴと判断された時刻では実際にはユーザＨが発話している場合がある。かかる場合でも、第２発話Ｖ２の開始時刻ＳｔＴから遡及時間Ｔを遡った時刻から音声認識を開始することで、第２発話Ｖ２の開始時刻ＳｔＴと判断される以前から実際にはユーザＨが発話していた音声Ｖの音声認識の取りこぼしを抑制できる。

なお、第１所定時間ｘ１は０．１秒間に限られず、第２所定時間ｘ２以下であれば、０．１秒間以上でも０．１秒間以下でも良い。第２所定時間ｘ２は３秒間に限られず、第１所定時間ｘ１以上であれば、３秒間以上でも３秒間以下でも良い。また、第１遡及時間Ｔｘ１は０．５秒間に限られず、上記した第１所定時間ｘ１以上かつ第２所定時間ｘ２以下の時間であれば、０．５秒間以上でも０．５秒間以下でも良い。同様に第２遡及時間Ｔｘ２は２秒間に限られず、第１所定時間ｘ１以上かつ第２所定時間ｘ２以下の時間であれば、２秒間以上でも２秒間以下でも良い。更に第１遡及時間Ｔｘ１を第２遡及時間Ｔｘ２よりも短い時間としたが、これに限られない。第１遡及時間Ｔｘ１と第２遡及時間Ｔｘ２とを同じ時間としても良いし、第１遡及時間Ｔｘ１を第２遡及時間Ｔｘ２よりも長い時間としても良い。

次に、図４を参照して、携帯端末１の電気的構成を説明する。図４は、携帯端末１の電気的構成を示すブロック図である。図４に示す通り、携帯端末１は、ＣＰＵ１０と、フラッシュＲＯＭ１１と、ＲＡＭ１２とを有し、これらはバスライン１３を介して入出力ポート１４にそれぞれ接続されている。入出力ポート１４には更に、音声Ｖを入力するマイク１５と、音声認識の認識結果等が表示されるＬＣＤ１６と、ユーザＨからの指示が入力されるタッチパネル１７とが接続される。

ＣＰＵ１０は、バスライン１３により接続された各部を制御する演算装置である。フラッシュＲＯＭ１１は、書き換え可能な不揮発性のメモリであり、音声認識プログラム１１ａと、音声Ｖが記憶される音声バッファ１１ｂとが保存される。ＣＰＵ１０によって音声認識プログラム１１ａが実行されると、図５の音声処理が実行される。ＲＡＭ１２は、ＣＰＵ１０の音声認識プログラム１１ａの実行時に各種のワークデータやフラグ等を書き換え可能に記憶するためのメモリであり、上記した遡及時間Ｔが記憶される遡及時間メモリ１２ａが設けられる。

次に、図５，６を参照して、携帯端末１のＣＰＵ１０で実行される処理を説明する。図５（ａ）は、音声処理のフローチャートである。音声処理は、タッチパネル１７等を介してユーザＨから音声認識プログラム１１ａを実行する指示が入力された場合に実行される処理である。

音声処理はまず、音声バッファ１１ｂの内容をクリアし（Ｓ１）、音声取得時刻と、上記した開始時刻ＳｔＴ及び終了時刻ＥｄＴとをそれぞれ０に設定する（Ｓ２）。音声取得時刻は、音声Ｖのサンプリング周期（例えば１／４４１００秒）が１単位時間とした時刻であり、音声バッファ１１ｂに記憶された音声Ｖを０秒、即ち音声バッファ１１ｂへの音声Ｖの記憶を開始した時刻から順に上記のサンプリング周期間隔で取得するための時刻情報として用いられる。

Ｓ２の処理の後、今回音量および前回音量に音量の最小値である－１２０ｄＢを設定する（Ｓ３）。今回音量には、発話の開始時刻ＳｔＴ及び終了時刻ＥｄＴを判断するための音量が記憶され、前回音量にはその今回音量の前回の音量が記憶される。

Ｓ３の処理の後、録音処理を開始する（Ｓ４）。録音処理は、音声Ｖのサンプリング周期毎に実行され、マイク１５から入力された音声Ｖを、サンプリング周期毎に音声バッファ１１ｂへ記憶させる処理である。Ｓ４の処理によって、録音処理の定期的な実行が開始される。ここで、図５（ｂ）を参照して録音処理を説明する。

図５（ｂ）は、録音処理のフローチャートである。録音処理は、上記した通り、音声Ｖのサンプリング周期毎に実行される割込処理である。録音処理は、マイク１５から取得した音声Ｖを音声バッファ１１ｂに追加し（Ｓ２０）、終了する。これにより、音声バッファ１１ｂには、上記のサンプリング周期毎に取得された音声Ｖが記憶される。

図５（ａ）に戻る。Ｓ４の処理の後、音声バッファ１１ｂから音声取得時刻における音声Ｖの音量を取得し、今回音量に設定する（Ｓ５）。Ｓ５の処理の後、音声認識処理（Ｓ６）を実行する。ここで、図６を参照して音声認識処理を説明する。

図６は、音声認識処理のフローチャートである。音声認識処理はまず、前回音量が図２で上記した開始判定値Ｓｔ＿Ａより小さく、且つ、音声取得時刻における今回音量が開始判定値Ｓｔ＿Ａ以上かを確認する（Ｓ３０）。即ち音声バッファ１１ｂの音声Ｖにおいて、開始判定値Ｓｔ＿Ａより小さい状態から開始判定値Ｓｔ＿Ａ以上となり、発話が開始した開始時刻ＳｔＴのタイミングであるかを確認する。

Ｓ３０の処理において、前回音量が開始判定値Ｓｔ＿Ａより小さく、且つ、音声取得時刻における今回音量が開始判定値Ｓｔ＿Ａ以上の場合は（Ｓ３０：Ｙｅｓ）、開始時刻ＳｔＴに音声取得時刻を設定する（Ｓ３１）。Ｓ３１の処理の後、開始時刻ＳｔＴから後述のＳ３９，Ｓ４０の処理で設定される図３で上記した終了時刻ＥｄＴを減算することで、発話間隔ΔＴを算出する（Ｓ３２）。Ｓ３２の処理の後、算出された発話間隔ΔＴを確認する（Ｓ３３）。

Ｓ３３の処理において、発話間隔ΔＴが第１所定時間ｘ１以下の場合は（ΔＴ≦ｘ１）、遡及時間メモリ１２ａに第１遡及時間Ｔｘ１を設定し（Ｓ３４）、発話間隔ΔＴが第２所定時間ｘ２以上の場合は（ΔＴ≧ｘ２）、遡及時間メモリ１２ａに第２遡及時間Ｔｘ２を設定し（Ｓ３５）、発話間隔ΔＴが第１所定時間ｘ１と第２所定時間ｘ２との間である場合は（ｘ１＜ΔＴ＜ｘ２）、遡及時間メモリ１２ａに発話間隔ΔＴを設定する（Ｓ３６）。

Ｓ３４～Ｓ３６の処理の後、音声バッファ１１ｂにおいてＳ３１の処理で設定された開始時刻ＳｔＴから遡及時間メモリ１２ａの遡及時間Ｔだけ遡った時刻（即ち認識開始時刻ＳｔＲ）から音声認識を実施する（Ｓ３７）。これにより、図３（ａ）～（ｃ）で上記した発話間隔ΔＴに応じた遡及時間Ｔが遡及時間メモリ１２ａに設定され、開始時刻ＳｔＴからその遡及時間Ｔから音声認識が開始される。Ｓ３７の処理によって音声認識された結果をＬＣＤ１６に表示しても良いし、図示しない通信装置を介して、他の携帯端末１等の情報処理装置に送信しても良い。

Ｓ３０の処理において、前回音量が開始判定値Ｓｔ＿Ａ以上の場合、または、今回音量が開始判定値Ｓｔ＿Ａより小さい場合は（Ｓ３０：Ｎｏ）、Ｓ３１～Ｓ３７の処理をスキップする。Ｓ３０，Ｓ３７の処理の後、前回音量が終了判定値Ｅｄ＿Ａより大きく且つ今回音量が終了判定値Ｅｄ＿Ａ以下かを確認する（Ｓ３８）。

Ｓ３８の処理において、前回音量が終了判定値Ｅｄ＿Ａより大きく且つ今回音量が終了判定値Ｅｄ＿Ａ以下の場合は（Ｓ３８：Ｙｅｓ）、音声取得時刻が図２で上記した発話が終了した終了時刻ＥｄＴのタイミングであるので、終了時刻ＥｄＴに音声取得時刻を設定する（Ｓ３９）。一方で、前回音量が終了判定値Ｅｄ＿Ａ以下または今回音量が終了判定値Ｅｄ＿Ａより大きい場合は（Ｓ３８：Ｎｏ）、Ｓ３９の処理をスキップする。Ｓ３８，Ｓ３９の処理の後、音声認識処理を終了する。

図５（ａ）に戻る。Ｓ６の音声認識処理の後、音声取得時刻にサンプリング周期を加算し、音声取得時刻を音声バッファ１１ｂから音量を取得する次のタイミングに進める（Ｓ７）。Ｓ７の処理の後、タッチパネル１７を介してユーザＨから音声処理の終了する指示を取得したかを確認する（Ｓ８）。Ｓ８の処理において、音声処理の終了の指示を取得しなかった場合は（Ｓ８：Ｎｏ）、Ｓ５以下の処理を繰り返し、音声処理の終了の指示を取得した場合は（Ｓ８：Ｙｅｓ）、音声処理を終了する。

以上、実施形態に基づき本発明を説明したが、本発明は上述した実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内で種々の改良変更が可能であることは容易に推察できるものである。

上記実施形態では、遡及時間Ｔに、発話間隔ΔＴが第１所定時間ｘ１以下の場合は第１遡及時間Ｔｘ１を、発話間隔ΔＴが第２所定時間ｘ２以上の場合は第２遡及時間Ｔｘ２を、発話間隔ΔＴが第１所定時間ｘ１と第２所定時間ｘ２との間の場合は発話間隔ΔＴをそれぞれ設定したが、これに限られない。発話間隔ΔＴによらず、遡及時間Ｔとして、発話間隔ΔＴを設定しても良いし、発話間隔ΔＴに所定の係数（例えば０．８）を乗算した時間を設定しても良いし、発話間隔ΔＴに所定の時間（例えば０．５秒間）を加算した時間を設定しても良い。また、発話間隔ΔＴによらず、遡及時間Ｔとして、第１遡及時間Ｔｘ１又は第２遡及時間Ｔｘ２を設定しても良い。

上記実施形態では、発話の開始時刻ＳｔＴ及び終了時刻ＥｄＴを音声Ｖの音量で判断したがこれに限られない。例えば、音声Ｖにおいて、人間の音声による周波数帯域（例えば、１００Ｈｚ～１０００Ｈｚ）が観測され始めた時刻を発話の開始時刻ＳｔＴと判断し、音声Ｖにおいて該周波数帯域が観測されている状態から、観測されなくなった時刻を終了時刻ＥｄＴと判断しても良い。

上記実施形態では、マイク１５から入力されたものを音声Ｖとしたが、これに限られない。例えば、予めフラッシュＲＯＭ１１に記憶された音声データを音声Ｖとしても良いし、図示しない通信装置を介して他の携帯端末１等から送信された音声データを音声Ｖとしても良い。

上記実施形態では、音声取得時刻を、サンプリング周期を１単位時間とし、音声バッファ１１ｂからサンプリング周期間隔で音量を取得したが、これに限られない。例えば、音声取得時刻の１単位時間を１秒間とし、音声バッファ１１ｂから音量を１秒間隔で取得しても良い。

上記実施形態では、音声認識プログラム１１ａが組み込まれた携帯端末１を例示したが、これに限られず、パーソナルコンピュータやタブレット端末等の他の情報処理装置（コンピュータ）によって音声認識プログラム１１ａを実行する構成としても良い。また、音声認識プログラム１１ａをＲＯＭやＩＣチップ等に記憶し、音声認識プログラム１１ａのみを実行する専用装置に、本発明を適用しても良い。

１携帯端末（コンピュータ）
１１フラッシュＲＯＭ（記憶部）
１１ｂ音声バッファ（音声記憶手段）
１１ａ音声認識プログラム
Ｖ音声
Ｖ１第１発話
Ｖ２第２発話
Ｓ２０音声記憶ステップ
ＳｔＴ開始時刻
ＥｄＴ終了時刻
ΔＴ発話間隔
ｘ１第１所定時間
ｘ２第２所定時間
Ｔ遡及時間
Ｔｘ１第１遡及時間
Ｔｘ２第２遡及時間
Ｓ３１開始時刻取得ステップ、開始時刻取得手段
Ｓ３９終了時刻取得ステップ、終了時刻取得手段
Ｓ３２間隔取得ステップ、間隔取得手段
Ｓ３４～Ｓ３６遡及時間取得ステップ、遡及時間取得手段
Ｓ３７音声認識ステップ、音声認識手段

Claims

記憶部を備えたコンピュータに、音声認識処理を実行させる音声認識プログラムであって、
前記記憶部を音声が記憶される音声記憶手段として機能させ、
入力された音声を前記音声記憶手段に記憶する音声記憶ステップと、
前記音声記憶手段に記憶される音声による発話の開始時刻を取得する開始時刻取得ステップと、
前記音声記憶手段に記憶される音声による発話の終了時刻を取得する終了時刻取得ステップと、
その終了時刻取得ステップで取得された第１発話の終了時刻と、前記開始時刻取得ステップで取得された開始時刻であって前記第１発話の後に入力される第２発話の開始時刻との時間差である発話間隔を取得する間隔取得ステップと、
その間隔取得ステップで取得された発話間隔に基づいて、前記開始時刻取得ステップで取得された前記第２発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得ステップと、
前記音声記憶手段に記憶される音声において、前記開始時刻取得ステップで取得された前記第２発話の開始時刻から前記遡及時間取得ステップで取得された遡及時間を遡った時刻から前記第２発話の音声認識を開始する音声認識ステップとを備えていることを特徴とする音声認識プログラム。
前記遡及時間取得ステップは、前記間隔取得ステップで取得された発話間隔が第１所定時間以下の場合は、前記第１所定時間以上の時間である第１遡及時間を遡及時間として取得するものであることを特徴とする請求項１記載の音声認識プログラム。
前記遡及時間取得ステップは、前記間隔取得ステップで取得された発話間隔が第２所定時間以上の場合は、前記第２所定時間以下の時間である第２遡及時間を遡及時間として取得するものであることを特徴とする請求項１又は２に記載の音声認識プログラム。
前記第１遡及時間は、前記第１所定時間以上かつ前記第２所定時間以下の時間であることを特徴とする請求項３記載の音声認識プログラム。
前記第２遡及時間は、前記第１所定時間以上かつ前記第２所定時間以下の時間であることを特徴とする請求項３又は４に記載の音声認識プログラム。
前記遡及時間取得ステップは、前記間隔取得ステップで取得された発音間隔が第１所定時間と第２所定時間との間である場合は、遡及時間として前記発音間隔を取得するものであることを特徴とする請求項１から５のいずれかに記載の音声認識プログラム。
音声を入力する音声入力手段と、
その音声入力手段で入力された音声を記憶する音声記憶手段と、
その音声記憶手段で記憶された音声による発話の開始時刻を取得する開始時刻取得手段と、
前記音声記憶手段で記憶された音声による発話の終了時刻を取得する終了時刻取得手段と、
その終了時刻取得手段で取得された第１発話の終了時刻と、前記開始時刻取得手段で取得された開始時刻であって前記第１発話の後に入力される第２発話の開始時刻との時間差である発話間隔を取得する間隔取得手段と、
その間隔取得手段で取得された発話間隔に基づいて、前記開始時刻取得手段で取得された前記第２発話の開始時刻から遡る時間である遡及時間を取得する遡及時間取得手段と、
前記音声記憶手段で記憶された音声において、前記開始時刻取得手段で取得された前記第２発話の開始時刻から前記遡及時間取得手段で取得された遡及時間を遡った時刻から前記第２発話の音声認識を開始する音声認識手段と、を備えていることを特徴とする音声認識装置。