JP7409381B2 - 発話区間検出装置、発話区間検出方法、プログラム - Google Patents

発話区間検出装置、発話区間検出方法、プログラム Download PDF

Info

Publication number
JP7409381B2
JP7409381B2 JP2021534484A JP2021534484A JP7409381B2 JP 7409381 B2 JP7409381 B2 JP 7409381B2 JP 2021534484 A JP2021534484 A JP 2021534484A JP 2021534484 A JP2021534484 A JP 2021534484A JP 7409381 B2 JP7409381 B2 JP 7409381B2
Authority
JP
Japan
Prior art keywords
speech
section
speech section
utterance
detection device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021534484A
Other languages
English (en)
Other versions
JPWO2021014612A1 (ja
Inventor
亮 増村
隆伸 大庭
清彰 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021014612A1 publication Critical patent/JPWO2021014612A1/ja
Application granted granted Critical
Publication of JP7409381B2 publication Critical patent/JP7409381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音響信号の発話区間検出に関し、発話区間検出装置、発話区間検出方法、プログラムに関する。
音声認識や話者認識、言語識別、音声対話等の音声アプリケーションにおいて、発話区間検出は重要な役割を担っている。例えば音声対話では、ユーザの音声に対し、発話区間ごとに音声認識を行い、音声認識結果に応じて発話区間ごとに応答を行うことで、ユーザとシステムの自然なインタラクションを実現することができる。発話区間検出を実現するにあたって考慮しなければいけない重要な点は、入力された音響信号から、正しい発話区間を頑健に切り出すことである。すなわち、本来の発話が途切れてしまったり、余分な非音声区間が過剰に含まれたりしないように、発話区間を検出することが重要となる。
従来の発話区間検出は、音声非音声判定という技術と、非音声区間の継続時間に対する閾値を用いたポストプロセシングにより実現されている。
音声非音声判定は、音響信号の音声区間と非音声区間を正確に判定するための技術である。音声非音声判定では一般的に、音響信号の短時間フレーム(例えば20msec)ごとに、音声であるか非音声であるかの2値を判定する構造がとられている。最も簡易な方法は、短時間フレームごとに音声パワーを計算して、音声パワーがあらかじめ人手で決定した閾値よりも大きいか小さいかを判断することにより、音声非音声判定を行う方法である。さらに発展的な方法としては、機械学習に基づく音声非音声判定が多く検討されている。機械学習に基づく音声非音声判定の場合、短時間フレームごとにメル周波数ケプストラム係数や基本周波数音響特徴量を抽出し、その情報から音声か非音声かのラベルを出力する識別器を用いて音声非音声判定を行う。例えば機械学習に基づく方法は非特許文献1などに開示されている。
続いて、非音声区間の継続時間に対する閾値を用いたポストプロセシングについて説明する。ポストプロセシング処理では、音声非音声判定を実施した後の出力情報である音声か非音声かのラベル系列に対して処理を行う。ポストプロセシングとして、あらかじめ人手で与えた非音声区間の継続時間の閾値σを用いて、閾値σ未満の時間長の非音声区間を「発話区間内の非音声区間」とみなし、閾値σ以上の時間長の非音声区間を「発話区間外の非音声区間」とみなすことで、「音声区間」および「発話区間内の非音声区間」を発話区間とみなす。この方法を用いた発話区間検出は、例えば非特許文献1などに開示されている。
S. Tong, H. Gu, and K. Yu, "A comparative study of robustness of deep learning approarches for VAD," In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 5695-5699, 2016.
従来技術では、音声非音声判定後のポストプロセシングとして、非音声区間の継続時間に固定の閾値を設けており、非音声区間直前の音声区間が発話終端であるか否かを考慮していない。そのため、特に話し言葉のような多様な音声現象を扱う際に発話区間をうまく検出することができない場合がある。例えば、ある音声区間の終端が「えーとー」等の言い淀みであれば、この終端は発話終端でない可能性が高く、これに続く非音声区間は「発話区間内の非音声区間」であると考えられる。一方、ある音声区間の終端が「です」や「ます」等の終助詞表現であれば、この終端は発話終端である可能性が高く、これに続く非音声区間は「発話区間外の非音声区間」であると考えられる。従来技術では、非音声区間直前の音声区間の終端が発話終端であるか否かを考慮せず、非音声区間の継続時間に固定の閾値を用いているため、期待された動作を実現できない場合があった。例えば、閾値σを2.0秒などと長めの時間に設定しておくと、発話の途中で発話区間が途切れてしまうことを一定程度防ぐことができるが、余分な非音声区間が発話区間内に過剰に含まれてしまう場合がある。一方、閾値σを0.2秒などと短めの時間に設定しておくと、余分な非音声区間が発話区間内に過剰に含まれてしまうことを一定程度防ぐことができるが、発話の途中で発話区間が途切れてしまう場合がある。
そこで本発明では、音声区間の終端が発話終端であるか否かに基づいて高精度に発話区間を検出することができる発話区間検出装置を提供することを目的とする。
本発明の音声非音声判定装置は、音声非音声判定部と、発話終端判定部と、非音声区間継続時間閾値決定部と、発話区間検出部を含む。
音声非音声判定部は、音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う。発話終端判定部は、音声非音声判定の結果が音声となる区間である音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う。非音声区間継続時間閾値決定部は、発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する。発話区間検出部は、音声区間に続く非音声区間の継続時間と対応する閾値とを比較して、発話区間を検出する。
本発明の音声非音声判定装置によれば、音声区間の終端が発話終端であるか否かに基づいて高精度に発話区間を検出することができる。
実施例1の発話区間検出装置の構成を示すブロック図。 実施例1の発話区間検出装置の動作を示すフローチャート。 実施例1の発話区間検出装置の音声区間抽出部の動作例を示す概念図。 コンピュータの機能構成例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<発話区間検出装置11の構成、動作>
以下、図1を参照して実施例1の発話区間検出装置の構成を説明する。同図に示すように本実施例の発話区間検出装置11は、音声非音声判定部111と、音声区間抽出部112と、発話終端判定部113と、非音声区間継続時間閾値決定部114と、発話区間検出部115を含む。
以下、図2を参照して各構成要件の動作を説明する。
音声非音声判定部111は、音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う(S111)。音声区間抽出部112は、音声非音声判定の結果が音声となる区間である音声区間を抽出する(S112)。発話終端判定部113は、音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う(S113)。非音声区間継続時間閾値決定部114は、発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する(S114)。発話区間検出部115は、音声区間に続く非音声区間の継続時間と対応する閾値とを比較して、発話区間を検出する(S115)。このとき、非音声区間継続時間閾値決定部114は、音声区間の終端が発話終端である確率が高くなればなるほど対応する閾値を小さな値とし、音声区間の終端が発話終端である確率が低くなればなるほど対応する閾値を大きな値とする。発話区間検出部115は、音声区間に続く非音声区間の継続時間が対応する閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出し、音声区間に続く非音声区間の継続時間が対応する閾値未満である場合に対応する非音声区間を発話区間内の非音声区間として検出する。
すなわち、音声区間の終端が「えーとー」等の言い淀みであれば、ステップS113の発話終端判定に基づき、音声区間の終端が発話終端である確率が低いとの判定を行い、ステップS114において、非音声区間の継続時間に対して長めの閾値(例えば2.0秒)を与える。一方、直前の音声区間の終端部が「です」や「ます」等の終助詞表現であれば、ステップS113の発話終端判定に基づき該当の音声区間の終端が発話終端である可能性が高いとの判定を行い、ステップS114において、非音声区間の継続時間に対して短めの閾値(例えば0.2秒)を与える。
以下、各構成要件の動作をさらに詳細に説明する。
<音声非音声判定部111>
入力:短時間フレームごとの音響特徴量の系列(x1,...,xT)
出力:音声非音声ラベル系列(s1,...,sT)
音声非音声判定部111の入力は、短時間フレームごとの音響特徴量の系列で表される音響信号である。この音響特徴量としては、様々な情報が利用できるが、例えばメル周波数ケプストラム係数や基本周波数といった情報を用いることができる。これらは公知であるためここでは省略する。ここでは、入力の音響信号を(x1,...,xT)と表し、xtはt番目のフレームの音響特徴量を表す。出力は音声非音声ラベル系列(s1,...,sT)であり、(s1,...,sT)は(x1,...,xT)に対応しており、stはt番目のフレームの状態を表し、「音声」か「非音声」のラベルを持つ。ここで、Tは音響信号に含まれるフレーム数である。
短時間フレームごとの音響特徴量の系列から音声非音声ラベル系列への変換方法は、上述の条件を満たす方法であればどんな方法でも良い。例えば参考非特許文献1や参考非特許文献2に開示されたDeep Neural Networkを用いた判定では、各フレームの音声非音声ラベルの生成確率をモデル化することで音声非音声判定を実現する。t番目のフレームの音声非音声ラベルの生成確率は次式で定義できる。
P(st)=VoiceActivityDetection(x1,...,xt1)
ここで、VoiceActivityDetection()は音声非音声判定を行うための関数であり、出力として音声非音声ラベルの生成確率を求めることができるものであれば、任意のネットワーク構造が適用できる。たとえば、リカレントニューラルネットワークや畳み込みニューラルネットワークなどと、ソフトマックス層を組み合わせることにより状態の生成確率を求めるネットワークを構成できる。θ1はあらかじめ与えられた学習データを用いて学習により求められるパラメータであり、VoiceActivityDetection()の関数の定義に依存したものとなる。このようなモデル化を行う場合、音声非音声判定は次式に基づく。
Figure 0007409381000001
ここで、s^1,...,s^Tは予測結果の音声非音声状態である。
なお、上記以外の方法として、例えば参考非特許文献3に開示されたガウス混合分布を用いた方法なども用いることができる。
(参考非特許文献1:X.-L. Zhang and J. Wu, “Deep belief networks based voice activity detection,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 4, pp. 697-710, 2013.)
(参考非特許文献2:N. Ryant, M. Liberman, and J. Yuan, “Speech activity detection on youtube using deep neural networks,” In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 728-731, 2013.)
(参考非特許文献3:J. Sohn, N. S. Kim, and W. Sung, “A statistical model-based voice activity detection,” IEEE Signal Processing Letters, vol. 6, no. 1, pp.1-3, 1999.)
<音声区間抽出部112>
入力:短時間フレームごとの音響特徴量の系列(x1,...,xT)、音声非音声ラベル系列(s1,...,sT)
出力:音声と判定されたある区間の音響特徴量の系列(xn,...,xm)(1≦n, m≦T, n<m)
音声区間抽出部112は、音声非音声ラベル系列(s1,...,sT)の情報をもとにして、短時間フレームごとの音響特徴量の系列(x1,...,xT)から、音声と判定されたある区間の音響特徴量の系列(xn,...,xm)を抽出する(S112)。なお、1≦nかつ、m≦Tである。ここで何区間分の音声区間を抽出できるのかは、音声非音声ラベル系列に依存しており、ラベル系列が例えば全部「非音声」と判定されれば、音声区間は一つも抽出されない。図3に示すように、音声区間抽出部112は、音声非音声ラベル系列(s1,s2,...,sT-1,sT)中の音声ラベルが連続している区間に対応した区間を音響特徴量の系列から切り出す。図3の例では、(s3,...,sT-2)までが音声ラベルであって、その他が非音声ラベルであるため、音声区間抽出部112は、(x3,...,xT-2)を音声区間として抽出する。
<発話終端判定部113>
入力:音声と判定されたある区間の音響特徴量の系列(xn,...,xm)(1≦n and m≦T)
出力:対象の音声区間の終端が発話終端である確率pn,m
発話終端判定部113は、音声と判定されたある区間の音響特徴量の系列(xn,...,xm)を入力として、その音声区間の終端が発話終端である確率pn,mを出力する(S113)。ステップS113は、(xn,...,xm)に基づいて、対象の音声区間の終端が発話終端である確率pn,mを出力する処理であれば、どんな処理であってもよい。例えばステップS113は、参考非特許文献4に記載のニューラルネットワークを用いた方法で実現してもよい。この場合、音声区間の終端が発話終端である確率は次式で定義できる。
pn,m=EndOfUtterance(xn,...,xm2)
ここで、EndOfUtterance()は入力された音響特徴量系列の終端が発話終端である確率を出力するための関数であり、たとえば、リカレントニューラルネットワークとシグモイド関数を組み合わせることにより構成できる。θ2はあらかじめ与えられた学習データを用いて学習により求められるパラメータであり、EndOfUtterance()の関数の定義に依存する。
なお、本実施例では、音声と判定されたある区間の音響特徴量の系列(xn,...,xm)のみを情報として用いたが、対象の音声区間よりも過去に得られた情報であれば、任意の情報を追加して用いることもできる。例えば、対象の音声区間よりも過去の音声区間の情報(音響特徴量の系列や、その際の発話終端判定の出力情報)を用いてもよい。
(参考非特許文献4:Ryo Masumura, Taichi Asami, Hirokazu Masataki, Ryo Ishii, Ryuichiro Higashinaka, "Online End-of-Turn Detection from Speech based on Stacked Time-Asynchronous Sequential Networks", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1661-1665, 2017.)
<非音声区間継続時間閾値決定部114>
入力:対象の音声区間が発話終端である確率pn,m
出力:対象の音声区間直後の非音声区間継続時間の閾値σn,m
非音声区間継続時間閾値決定部114は、対象の音声区間が発話終端である確率pn,mに基づいて、対象の音声区間直後の非音声区間継続時間の閾値σn,mを決定する。入力される確率pn,mは、値が大きいほど対象の音声区間の終端が発話終端である可能性が高いことを意味し、値が小さいほど対象の音声区間の終端が発話終端ではないことを意味している。この性質を活かして、例えば次式のように非音声区間継続時間の閾値を決定する。
σn,m=K-kpn,m
ここで、Kおよびkは人手によりあらかじめ決定したハイパーパラメータであり、K≧k≧0.0である。例えば、K=1.0、k=1.0とした場合、pn,mが0.9であれば、σn,mは0.1となり、対象の音声区間直後の非音声区間継続時間の閾値を短めに設定することができる。一方、pn,mが0.1であれば、σn,mは0.9となり、対象の音声区間直後の非音声区間継続時間の閾値を長めに設定することができる。
なお、ステップS114の閾値決定方法は、対象の音声区間が発話終端である確率を用いて自動決定する方法であればどんな方法でも良い。例えばpn,mの値に応じて固定した値を設定することもできる。例えばpn,m≧0.5であればσn,m=0.3、pn,m<0.5であればσn,m=1.0というルールをあらかじめ設定し、非音声区間継続時間閾値決定部114はこのルールに基づく閾値決定アルゴリズムを実行してもよい。
<発話区間検出部115>
入力:音声非音声ラベル系列(s1,...,sT)、各音声区間直後の非音声区間継続時間の閾値σn,m(n,mのペアは0以上含まれる)
出力:発話区間ラベル系列(u1,...,uT)
発話区間検出部115は、音声非音声ラベル系列(s1,...,sT)と各音声区間直後の非音声区間継続時間の閾値σn,mを用いて、発話区間ラベル系列(u1,...,uT)を出力する(S115)。(u1,...,uT)は(s1,...,sT)に対応した発話区間を表現するラベル系列を表し、utはt番目のフレームの音響信号が「発話区間内」か「発話区間外」を表す2値ラベルである。この処理は、(s1,...,sT)に対するポストプロセシングとして実現できる。
ここで、σn,mという閾値が与えられた場合は、m+1番目のフレームの音声非音声ラベルsm+1より先に1フレーム以上の非音声区間が続くことを意味している。発話区間検出部115は、非音声区間の継続時間と閾値σn,mを比較して、非音声区間の継続時間が閾値未満であればその区間を「発話区間内の非音声区間」と判定する。一方発話区間検出部115は、非音声区間の継続時間が閾値以上であれば、その区間を「発話区間外の非音声区間」と判定する(S115)。発話区間検出部115は、この処理を、各音声区間直後の非音声区間継続時間の閾値ごとに実施することにより、発話区間ラベル系列(u1,...,uT)を決定する。すなわち発話区間検出部115は、「発話区間内の非音声区間」および「音声区間」のフレームに対して「発話区間内」のラベルを与え、「発話区間外の非音声区間」のフレームに対して「発話区間外」のラベルを与える。
なお、上述の実施例では、一定の(Tフレーム分の)音響信号をまとめて処理しているが、時系列順に新たなフレームの情報が得られるたびにこの処理を実施してもよい。例えば、sT+1が得られたタイミングに、「sT+1=音声」であれば、uT+1は自動的に「発話区間内」のラベルを与えることができる。「sT+1=非音声」であれば、直前の音声区間直後で算出した非音声区間継続時間の閾値が存在すれば、直前の音声区間からの経過時間を求めて、それに応じて発話区間か否かを決定できる。
<効果>
実施例1の発話区間検出装置11によれば、入力された音響信号から、発話区間を頑健に切り出すことができる。実施例1の発話区間検出装置11によれば、話し言葉のように多様な音声現象が音響信号に含まれる場合であっても、発話の途中で発話区間が途切れてしまったり、発話区間に余分な非音声区間が過剰に含まれることが発生したりすることなく、発話区間を検出することができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
上述の各種の処理は、図4に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 音声認識の前処理として発話区間を検出する発話区間検出装置であって、
    音声区間の音響特徴量に基づいて、前記音声区間の終端が発話終端である確率を出力する発話終端判定部と、
    前記確率に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定部を含む
    発話区間検出装置。
  2. 請求項1に記載の発話区間検出装置であって、
    前記音声区間に続く非音声区間の継続時間と対応する前記閾値とを比較して、発話区間を検出する発話区間検出部をさらに含む
    発話区間検出装置。
  3. 請求項1に記載の発話区間検出装置であって、
    音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う音声非音声判定部をさらに含む
    発話区間検出装置。
  4. 請求項2に記載の発話区間検出装置であって、
    前記非音声区間継続時間閾値決定部は、
    前記音声区間の終端が発話終端である確率が高くなればなるほど対応する前記閾値を小さな値とし、前記音声区間の終端が発話終端である確率が低くなればなるほど対応する前記閾値を大きな値とし、
    前記発話区間検出部は、
    前記音声区間に続く非音声区間の継続時間が対応する前記閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出する
    発話区間検出装置。
  5. 請求項1に記載の発話区間検出装置であって、
    前記非音声区間継続時間閾値決定部は、
    Kおよびkを人手によりあらかじめ決定したハイパーパラメータとし、K≧k≧0.0とし、前記確率をp n,m とし、非音声区間の継続時間に関する閾値σ n,m
    σ n,m =K-kp n,m
    として決定する
    発話区間検出装置。
  6. 請求項1に記載の発話区間検出装置であって、
    前記発話終端判定部は、
    音響特徴量に基づき、学習データを用いて学習を行ったニューラルネットワークにより前記確率を求める
    発話化区間検出装置。
  7. 音声認識の前処理として発話区間を検出する発話区間検出方法であって、
    音声区間の音響特徴量に基づいて、前記音声区間の終端が発話終端である確率を出力する発話終端判定ステップと、
    前記確率に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定ステップを含む
    発話区間検出方法。
  8. コンピュータを請求項1から6の何れかに記載の発話区間検出装置として機能させるプログラム。
JP2021534484A 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム Active JP7409381B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/029035 WO2021014612A1 (ja) 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2021014612A1 JPWO2021014612A1 (ja) 2021-01-28
JP7409381B2 true JP7409381B2 (ja) 2024-01-09

Family

ID=74193592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534484A Active JP7409381B2 (ja) 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム

Country Status (3)

Country Link
US (1) US20220270637A1 (ja)
JP (1) JP7409381B2 (ja)
WO (1) WO2021014612A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7071579B1 (ja) * 2021-10-27 2022-05-19 アルインコ株式会社 デジタル無線送信装置及びデジタル無線通信システム
WO2023181107A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 音声検出装置、音声検出方法及び記録媒体
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005017932A (ja) 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2007256482A (ja) 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2017078848A (ja) 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
JP2019040148A (ja) 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104676B2 (ja) * 1988-02-29 1995-11-13 日本電信電話株式会社 適応形発声終了検出方法
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005017932A (ja) 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2007256482A (ja) 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2017078848A (ja) 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
JP2019040148A (ja) 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2021014612A1 (ja) 2021-01-28
US20220270637A1 (en) 2022-08-25
WO2021014612A1 (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
WO2020226778A1 (en) On-device custom wake word detection
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN110895928A (zh) 语音识别方法和设备
Kim et al. Sequential labeling for tracking dynamic dialog states
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP6636374B2 (ja) 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
WO2020162238A1 (ja) 音声認識装置、音声認識方法、プログラム
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP7111017B2 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
WO2024018518A1 (ja) モデル学習装置、満足度推定装置、モデル学習方法、満足度推定方法、プログラム
CN111816164A (zh) 用于语音识别的方法及设备
JP7218810B2 (ja) 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
WO2018216511A1 (ja) 属性識別装置、属性識別方法、プログラム
JP7160170B2 (ja) 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231204

R150 Certificate of patent or registration of utility model

Ref document number: 7409381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150