JP2021039293A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2021039293A
JP2021039293A JP2019161765A JP2019161765A JP2021039293A JP 2021039293 A JP2021039293 A JP 2021039293A JP 2019161765 A JP2019161765 A JP 2019161765A JP 2019161765 A JP2019161765 A JP 2019161765A JP 2021039293 A JP2021039293 A JP 2021039293A
Authority
JP
Japan
Prior art keywords
data
learning
time series
partial time
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019161765A
Other languages
English (en)
Other versions
JP7010905B2 (ja
Inventor
和博 荒井
Kazuhiro Arai
和博 荒井
浩和 政瀧
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT TechnoCross Corp
Original Assignee
NTT TechnoCross Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT TechnoCross Corp filed Critical NTT TechnoCross Corp
Priority to JP2019161765A priority Critical patent/JP7010905B2/ja
Publication of JP2021039293A publication Critical patent/JP2021039293A/ja
Application granted granted Critical
Publication of JP7010905B2 publication Critical patent/JP7010905B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成すること。【解決手段】情報処理装置が、入力された音声データから、特徴量の時系列データを抽出する抽出手段と、前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、を有することを特徴とする。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
人間の声等をコンピュータに認識させる技術として、音声認識が従来から知られている。音声認識では、音響モデル、認識辞書及び言語モデルと呼ばれる3つのモデルを用いて、入力された音声の認識が行われる(例えば、非特許文献1参照)。音響モデルとは音素と声の特徴とを対応付けたモデルであり、音素の音響的な特徴を構造化し、確率値として表現したものである。
音響モデルの性能は、その学習に用いられる音声データの質と量とに依存する。このため、音響モデルの学習には、十分な品質の音声データを大量に準備(例えば、合計再生時間が1000時間を超える分量の音声データを準備)する必要がある。
政瀧 浩和,柴田 大輔,中澤 裕一,小橋川 哲,小川 厚徳,大附 克年,"顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」",NTT技術ジャーナル 2006年 Vol.18 No.11
しかしながら、音声データには個人情報や機密情報等が含まれる場合があるため、大量の音声データの入手が困難なことがある。例えば、音声認識を利用したサービスを提供するサービス提供者と音声データの所有者とが異なる者である場合には、サービス提供者は、個人情報や機密情報等が含まれる可能性がある音声データの提供を所有者から受けることは一般に困難である。
このため、例えば、個人情報や機密情報等が含まれないことが確認された比較的少量の音声データ(例えば、合計再生時間が数時間〜数十時間程度の分量の音声データ)で音響モデルを学習することになり、音響モデルの性能が十分でない場合があった。
一方で、各音声データの再生時間が非常に短い時間(例えば、数百ミリ秒以下)であっても、音声データが大量にあれば、音響モデルは十分な性能を獲得可能であることが知られている。このため、音響モデルの学習には、個人情報や機密情報等が聴取可能な再生時間(例えば、1秒〜数秒以上)の音声データは必ずしも必要ない。
本発明の実施形態は、上記の点に鑑みてなされたもので、音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成することを目的とする。
上記目的を達成するため、本実施形態に係る情報処理装置は、入力された音声データから、特徴量の時系列データを抽出する抽出手段と、前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、を有することを特徴とする。
音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成することができる。
本実施形態の全体構成の一例を示す図である。 学習データの作成及び音響モデルの学習の一例を示すフローチャートである。 学習データ作成の流れを模式的に説明するための図(その1)である。 学習データ作成の流れを模式的に説明するための図(その2)である。
以下、本発明の実施形態(以降、「本実施形態」とも表す。)について説明する。本実施形態では、音声によって表現された情報を聴取可能な再生時間(例えば、1秒〜数秒以上)の音声データを用いて、この音声データが表す情報を復元できないように細分化することで、音響モデルの学習データを作成する場合について説明する。
ここで、本実施形態が想定する音声データとしては、例えば、コールセンタの通話記録を表す音声データ等が挙げられる。このような音声データには顧客の個人情報(例えば、氏名や住所等)が含まれることが多いためである。そこで、本実施形態では、音声データとしてコールセンタの通話記録を想定し、当該音声データには個人情報が含まれるものとする。ただし、これは一例であって、本実施形態は任意の音声データに対して適用可能である。なお、機密情報が含まれる音声データの一例としては、会議の議事記録を表す音声データ等が挙げられる。
<全体構成>
まず、本実施形態の全体構成について、図1を参照しながら説明する。図1は、本実施形態の全体構成の一例を示す図である。
図1に示すように、本実施形態では、音響モデルの学習データを作成する学習データ作成装置10と、この学習データを用いて音響モデルの学習(チューニング)を行う音響モデル学習装置20とが用いられる。学習データ作成装置10及び音響モデル学習装置20は、例えば、PC(パーソナルコンピュータ)や汎用サーバ等のコンピュータ(情報処理装置)又はコンピュータシステム(情報処理システム)で実現される。なお、学習データ作成装置10及び音響モデル学習装置20は、例えば、スマートフォンやタブレット端末等で実現されてもよい。
学習データ作成装置10は、音声データ1000を入力として、この音声データ1000が表す情報を聴取可能でない時間に細分化することで学習データ2000を作成する。なお、音声データ1000には個人情報が含まれているものとする。
ここで、学習データ作成装置10は、特徴量抽出部101と、部分時系列作成部102と、ノイズ付加部103と、順序並べ替え部104と、学習データ作成部105とを有する。これら各機能部は、学習データ作成装置10のメモリ装置(例えば、補助記憶装置等)に格納されている1以上のプログラムがプロセッサ等に実行させる処理により実現される。なお、これらの1以上のプログラムは、例えば、学習データ作成装置10に接続された外部記録媒体(例えば、CD、DVD、USBメモリ等)に格納されていてもよい。
特徴量抽出部101は、音響的な特徴を表す特徴量を音声データ1000から抽出して、特徴量の時系列データ(以降、「特徴量時系列」とも表す。)を作成する。この特徴量時系列は、音声データ1000に対して既知の手法(例えば、ケプストラム分析等)を適用することで得ることが可能である。なお、この特徴量時系列を逆変換することにより元の音声データ1000に復元することが可能であるため、この特徴量時系列には個人情報が含まれているということができる。
なお、特徴量抽出部101は、メモリ装置に格納されている音声データ1000を入力してもよいし、外部記録媒体に格納されている音声データ1000を入力してもよいし、通信ネットワークを介して接続されるサーバ装置等に格納されている音声データ1000をダウンロードして入力してもよい。
部分時系列作成部102は、特徴量抽出部101によって作成された特徴量時系列を所定の切り出し時間幅(以降、「フレーム長」とも表す。)単位で切り出した時系列データ(以降、「部分時系列」とも表す。)を作成する。このとき、部分時系列作成部102は、フレーム長よりも短い所定の時間幅(以降、「フレームシフト量」とも表す。)ずつ、切り出し開始時刻をシフト(スライド)させながら特徴量時系列から部分時系列を作成する。なお、各部分時系列には、音響モデルの学習の際に用いられる正解ラベル(つまり、正解の音素を表す情報)が付与される。
ノイズ付加部103は、部分時系列作成部102によって作成された複数の部分時系列のそれぞれに対してノイズを付加する。これは、後述するように、複数の部分時系列から元の特徴量時系列を復元することが可能であるため、ノイズを付加することで元の特徴量時系列に復元することができないようにするためである。
順序並べ替え部104は、ノイズ付加部103によってノイズが付加された複数の部分時系列の順序をランダムに並べ替える。これは、元の特徴量時系列への復元をより困難にするためである。
学習データ作成部105は、順序並べ替え部104によって並べ替えられた部分時系列同士を結合した学習データを作成する。この学習データは、学習データ作成装置10のメモリ装置等に格納されてもよいし、音響モデル学習装置20に渡されてもよい。なお、学習データが音響モデル学習装置20に渡される際には、通信ネットワークを介して学習データが送信されてもよいし、学習データが格納された外部記録媒体等を介して学習データが渡されてもよい。
音響モデル学習装置20は、学習データ2000を入力として、この学習データ2000を用いて音響モデル3000を学習(チューニング)する。
ここで、音響モデル学習装置20は、音響モデル学習部201を有する。音響モデル学習部201は、音響モデル学習装置20のメモリ装置(例えば、補助記憶装置等)に格納されている1以上のプログラムがプロセッサ等に実行させる処理により実現される。なお、これらの1以上プログラムは、例えば、音響モデル学習装置20に接続された外部記録媒体(例えば、CD、DVD、USBメモリ等)に格納されていてもよい。
音響モデル学習部201は、学習データ作成装置10から渡された学習データを用いて、音響モデル学習装置20のメモリ装置等に格納されている音響モデル3000を学習(チューニング)する。このとき、音響モデル学習部201は、上述したフレーム長と同じ時間幅毎に学習データを切り出した上で、これらの切り出されたデータ(つまり、ノイズが付加された部分時系列とその正解ラベル)を用いて音響モデル3000を学習する。なお、音響モデル3000としては音素と特徴量とを対応付けた任意のモデルを用いることが可能であるが、例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等を用いることが可能である。また、音響モデル3000を学習するための学習アルゴリズムとしてはモデルに応じて任意のアルゴリズムを用いることが可能であるが、例えば、EM(Expectation-Maximization)アルゴリズム等を用いることが可能である。
なお、図1に示す例では、学習データ作成装置10と音響モデル学習装置20とが異なる装置である場合について説明したが、これに限られず、学習データ作成装置10と音響モデル学習装置20とが一体で構成されていてもよい。
<処理の流れ>
次に、本実施形態に係る学習データ作成装置10で学習データ2000を作成した上で、本実施形態に係る音響モデル学習装置20で当該学習データ2000を用いて音響モデル3000を学習する場合の処理の流れについて、図2を参照しながら説明する。図2は、学習データの作成及び音響モデルの学習の一例を示すフローチャートである。
まず、学習データ作成装置10の特徴量抽出部101は、入力した音声データ1000から特徴量を抽出して特徴量時系列を作成する(ステップS101)。例えば、図3に示すように、「おでんわありがとう」との音声を表す音声データ1000が入力された場合、特徴量抽出部101は、この音声データ1000から特徴量を抽出して特徴量時系列1100を作成する。なお、特徴量抽出部101は、上述したように、例えばケプストラム分析等の既知の手法により音声データ1000から特徴量を抽出して特徴量時系列を作成することができる。
次に、学習データ作成装置10の部分時系列作成部102は、フレームシフト量ずつ切り出し開始時刻をシフトさせながら、フレーム長の特徴量を特徴量時系列1100から切り出すことで、複数の部分時系列を作成する(ステップS102)。例えば、フレームシフト量及びフレーム長は共に固定であるものとしてそれぞれをΔ及びTと表した場合、図3に示すように、部分時系列作成部102は、特徴量時系列1100の先頭からフレームシフト量Δずつ切り出し開始時刻をシフトさせながら、フレーム長Tの時間幅の特徴量を部分時系列1200として切り出す。なお、フレーム長T及びフレームシフト量ΔはT>Δを満たすことを条件として任意に設定することが可能であるが、例えば、フレーム長Tとしては数百ミリ秒程度、フレームシフト量Δとしては数十ミリ秒程度とすることが考えられる。
具体的には、まず、部分時系列作成部102は、切り出し開始時刻t=0から切り出し終了時刻t=Tまでの時間幅の特徴量を部分時系列1200−1として特徴量時系列1100から切り出す。次に、部分時系列作成部102は、切り出し開始時刻t=Δから切り出し終了時刻t=T+Δまでの時間幅の特徴量を部分時系列1200−2として特徴量時系列1100から切り出す。以降も同様に、n回目の切り出しを行う際には、部分時系列作成部102は、切り出し開始時刻t=(n−1)Δから切り出し終了時刻t=T+(n−1)Δまでの時間幅の特徴量を部分時系列1200−nとして特徴量時系列1100から切り出す。
以上により、複数の部分時系列1200が得られる。以降では、部分時系列1200の総数をNとして、各部分時系列1200を区別して表す場合は「部分時系列1200−1」、「部分時系列1200−2」、・・・、「部分時系列1200−N」とも表す。
ここで、各部分時系列1200には、音響モデル3000の学習の際に用いられる正解ラベルが付与される。図3に示す例では、部分時系列1200−1に対しては正解ラベル「/o/」が付与されており、部分時系列1200−2に対しては正解ラベル「/d/」が付与されている。また、部分時系列1200−3に対しては正解ラベル「/e/」が付与されており、部分時系列1200−4に対しては正解ラベル「/n/」が付与されている。これらの正解ラベルは任意の方法で各部分時系列1200に付与されればよく、例えば、ユーザの手作業により正解ラベルが付与されてもよいし、音声データに対して音素単位にラベル付けを行うツール(例えば、音素セグメンテーションツール)等により正解ラベルが付与されてもよい。
次に、学習データ作成装置10のノイズ付加部103は、複数の部分時系列1200のそれぞれに対してノイズを付加する(ステップS103)。
上述したように、フレーム長T及びフレームシフト量ΔはT>Δを満たすため、n回目に切り出された部分時系列1200−nとn+1回目に切り出された部分時系列1200−(n+1)とは少なくとも一部の時間区間が重畳し、この時間区間内で特徴量が同じ変化をすることになる。このため、複数の部分時系列1200の中で特徴量が同じ変化をする時間区間が含まれる部分時系列1200を探し出して、当該時間区間が重畳するように互いに結合させることで特徴量時系列1100を復元することが可能となってしまう(つまり、部分時系列1200から音声データ1000を復元することが可能である。)。そこで、各部分時系列1200のそれぞれに対して異なるノイズを付加することで、部分時系列1200から特徴量時系列1100を復元するこができないようにする。
ノイズ付加部103は、任意の方法によって各部分時系列1200のそれぞれに対して異なるノイズを付加すればよいが、例えば、n=1,・・・,Nとして、部分時系列1200−nに対して乱数rを生成した上で、部分時系列1200−nに含まれる各特徴量に対して乱数rを加算(又は、減算等)することが考えられる。ただし、各乱数rは、部分時系列1200−nと部分時系列1200−(n+1)とで重畳する時間区間の特徴量が異なるものとなり、かつ、音響モデル3000の学習に影響が出ない程度の軽微な値とすることが好ましい。なお、以降では、ノイズが付加された部分時系列1200も「部分時系列1200」と表す。
次に、学習データ作成装置10の順序並べ替え部104は、各部分時系列1200の順序をランダムに並べ替える(ステップS104)。すなわち、例えば、図4に示すように、順序並べ替え部104は、部分時系列1200−1、部分時系列1200−2、・・・、部分時系列1200−Nを、部分時系列1200−n、部分時系列1200−n、・・・、部分時系列1200−nに並び替える。ここで、n∈{1,・・・,N},n∈{1,・・・,N}\{n},n∈{1,・・・,N}\{n,n},・・・,n∈{1,・・・,N}\{n,・・・,nN−1}である。なお、図4に示す例では、n=3、n=4、n=1、n=2である。
順序並べ替え部104は、任意の方法によって各部分時系列1200の順序をランダムに並べ替えればよいが、例えば、n=1,・・・,Nとして、部分時系列1200−nに対して乱数sを生成した上で、乱数sの昇順(又は降順)に部分時系列1200−nを並べ替えることが考えられる。このとき、部分時系列1200の総数Nを十分に超える範囲から乱数sを生成する(例えば、SをNより十分大きい整数として、[0,S]から乱数sを生成する、又は[−S,S]から乱数sを生成する等)ことが好ましい。また、異なる部分時系列1200に対して同一の乱数が生成されないようにすることが好ましい。
以上により、部分時系列1200−1、部分時系列1200−2、・・・、部分時系列1200−Nをランダムに並べ替えた部分時系列1200−n、部分時系列1200−n、・・・、部分時系列1200−nが得られる。これにより、元の特徴量時系列1100への復元がより困難となる。
次に、学習データ作成装置10の学習データ作成部105は、並べ替え後の部分時系列1200を結合して学習データ2000を作成する(ステップS105)。すなわち、例えば、図4に示すように、学習データ作成部105は、m=1,・・・,N−1として、部分時系列1200−nと部分時系列1200−nm+1とを互いに結合する(つまり、部分時系列1200−nの最終時刻の次の時刻を、部分時系列1200−nm+1の開始時刻とする)ことで、学習データ2000を作成する。これにより、学習データ2000が作成される。なお、学習データ2000を構成する各部分時系列1200にはそれぞれ正解ラベルが付与されている。
続いて、音響モデル学習装置20の音響モデル学習部201は、学習データ作成装置10で作成された学習データ2000を用いて、音響モデル3000を学習する(ステップS106)。このとき、音響モデル学習部201は、学習データ2000の先頭から順にフレーム長Tと同じ時間幅のデータを切り出した上で、これらの切り出したデータ及びその正解ラベルを用いて既知の学習アルゴリズムにより音響モデル3000を学習する。なお、学習データ2000の先頭から順にフレーム長Tと同じ時間幅のデータを切り出すことは、図4に示す部分時系列1200−n、部分時系列1200−n、・・・、部分時系列1200−nを学習データ2000から順に得ることを意味する。
<まとめ>
以上のように、本実施形態では、個人情報や機密情報等が含まれる音声データ1000を用いて、この音声データ1000が表す情報を復元できないように細分化した部分時系列1200で構成される学習データ2000を作成することができる。本実施形態を用いることで、学習データ2000からは個人情報や機密情報等を復元することができないため、個人情報や機密情報等が含まれる音声データ1000であっても音響モデル3000の学習に利用することができるようになる。このため、例えば、音声認識を利用したサービスを提供するサービス提供者は、音響モデル3000の学習に必要な学習データ2000を容易に入手することができるようになり、音響モデル3000の性能を向上させることが可能になる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変更や変更、公知技術との組み合わせ等が可能である。
10 学習データ作成装置
20 音響モデル学習装置
101 特徴量抽出部
102 部分時系列作成部
103 ノイズ付加部
104 順序並べ替え部
105 学習データ作成部
201 音響モデル学習部
1000 音声データ
2000 学習データ
3000 音響モデル

Claims (6)

  1. 入力された音声データから、特徴量の時系列データを抽出する抽出手段と、
    前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、
    前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、
    を有することを特徴とする情報処理装置。
  2. 前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれに対してノイズを付加するノイズ付加手段を有し、
    前記学習データ作成手段は、
    前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データをランダムに接続して、前記学習データを作成する、ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記ノイズ付加手段は、
    前記複数の部分時系列データのそれぞれに対して生成した第1の乱数を前記ノイズとして付加し、
    前記学習データ作成手段は、
    前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データのそれぞれに対して第2の乱数を生成し、前記第2の乱数の昇順又は降順に前記複数の部分時系列データを接続して、前記学習データを作成する、ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記学習データ作成手段により作成された学習データを前記所定の時間幅毎に切り出したデータと、前記データに付与された正解ラベルとを用いて、前記音響モデルを学習する学習手段を有する、ことを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。
  5. 入力された音声データから、特徴量の時系列データを抽出する抽出手順と、
    前記抽出手順で抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手順と、
    前記部分時系列作成手順で作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手順と、
    をコンピュータが実行することを特徴とする情報処理方法。
  6. コンピュータを、請求項1乃至4の何れか一項に記載の情報処理装置における各手段として機能させるためのプログラム。
JP2019161765A 2019-09-05 2019-09-05 情報処理装置、情報処理方法及びプログラム Active JP7010905B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019161765A JP7010905B2 (ja) 2019-09-05 2019-09-05 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019161765A JP7010905B2 (ja) 2019-09-05 2019-09-05 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021039293A true JP2021039293A (ja) 2021-03-11
JP7010905B2 JP7010905B2 (ja) 2022-01-26

Family

ID=74847069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019161765A Active JP7010905B2 (ja) 2019-09-05 2019-09-05 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7010905B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128913A (ja) * 2017-02-09 2018-08-16 日本電信電話株式会社 データ流通仲介装置、データ流通仲介システム、およびデータ流通仲介方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128913A (ja) * 2017-02-09 2018-08-16 日本電信電話株式会社 データ流通仲介装置、データ流通仲介システム、およびデータ流通仲介方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
三村正人: "講演音声認識のための類似話者選択に基づくDNN−HMMの教師なし適応", 電子情報通信学会論文誌D, vol. 98, no. 11, JPN6018003560, 2 December 2015 (2015-12-02), JP, pages 1411 - 1418, ISSN: 0004528426 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Also Published As

Publication number Publication date
JP7010905B2 (ja) 2022-01-26

Similar Documents

Publication Publication Date Title
JP7427723B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
US8812314B2 (en) Method of and system for improving accuracy in a speech recognition system
CN103345467B (zh) 语音翻译系统
US20180293969A1 (en) Audio information processing method and apparatus
US20090150152A1 (en) Method and apparatus for fast search in call-center monitoring
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
JP2009210829A (ja) 音響モデル学習装置およびプログラム
KR20110099434A (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
WO2021227308A1 (zh) 一种视频资源的生成方法和装置
CN112053692A (zh) 语音识别处理方法、装置及存储介质
CN113724718A (zh) 目标音频的输出方法及装置、系统
JP7010905B2 (ja) 情報処理装置、情報処理方法及びプログラム
Mandel et al. Audio super-resolution using concatenative resynthesis
CN113724690B (zh) Ppg特征的输出方法、目标音频的输出方法及装置
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN114783408A (zh) 一种音频数据处理方法、装置、计算机设备以及介质
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN112397053A (zh) 语音识别方法、装置、电子设备及可读存储介质
US20230410787A1 (en) Speech processing system with encoder-decoder model and corresponding methods for synthesizing speech containing desired speaker identity and emotional style
Khanna et al. SummarizeAI-Summarization of the Podcasts
CN113345413B (zh) 基于音频特征提取的语音合成方法、装置、设备及介质
CN116312468A (zh) 一种合成含有情感的语音的方法、装置、设备和存储介质
WO2023157207A1 (ja) 信号解析システム、信号解析方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220113

R150 Certificate of patent or registration of utility model

Ref document number: 7010905

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250