JP7283718B2 - 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム - Google Patents
音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム Download PDFInfo
- Publication number
- JP7283718B2 JP7283718B2 JP2021522679A JP2021522679A JP7283718B2 JP 7283718 B2 JP7283718 B2 JP 7283718B2 JP 2021522679 A JP2021522679 A JP 2021522679A JP 2021522679 A JP2021522679 A JP 2021522679A JP 7283718 B2 JP7283718 B2 JP 7283718B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- acoustic signal
- domain
- input
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Description
本発明の実施形態では、音響信号から、当該音響信号に対応する文を生成する際、文生成モデルを用いる。ここで、文生成モデルとは、音響信号を入力とし、対応する文を出力する関数のことである。また、音響信号に対応する文とは、例えば、当該音響信号がどのような音であるのかを説明する文(当該音響信号の説明文)のことである。
SCGは、図1に示すように、デコーダに参考非特許文献1に記載のRLM(Recurrent Language Model)を採用したエンコーダ-デコーダモデルである。
(参考非特許文献1:T. Mikolov, M. Karafiat, L. Burget, J. Cernock`y, and S. Khudanpur, “Recurrent neural network based language model”, In INTERSPEECH 2010, pp.1045-1048, 2010.)
(1)SCGは、エンコーダによって、音響信号から音の分散表現である潜在変数(Latent variable)zを抽出する。潜在変数zは、所定の次元(例えば、128次元)のベクトルとして表現される。この潜在変数zは、文生成のための十分な情報を含んだ音響信号の要約特徴量であるといえる。したがって、潜在変数zは音響信号と文の双方の特徴を有する固定長ベクトルであるともいえる。
(2)SCGは、デコーダによって、潜在変数zから、時刻t(t=1, 2, …)における単語wtを出力していくことにより、文を生成する。デコーダの出力層(Output layer)は、時刻tにおける単語の生成確率pt(w)から、次式により時刻tにおける単語wtを出力する。
上記ばらつきの問題を解決するために、文の詳細さの程度を示す指標である詳細度(Specificity)を定義する。n個の単語の列[w1, w2, …, wn]である文sの詳細度Isを次式により定義する。
(1)具体的な物体や動作を表す単語を用いた文は詳細度が高くなる(図2参照)。
(2)使用する単語数が多い文は詳細度が高くなる(図3参照)。
CSCGは、SCGと同様、デコーダにRLMを採用したエンコーダ-デコーダモデルである。ただし、CSCGでは、デコーダに条件付けを行うことにより、生成される文の詳細度(Specificity of the sentence)を制御する(図4参照)。条件付けは、文の詳細度に関する条件(Specificitical Condition)をデコーダの入力とすることにより行う。ここで、文の詳細度に関する条件とは、生成される文の詳細度に関する条件を指定するものである。
(1)CSCGは、エンコーダによって、音響信号から音の分散表現である潜在変数zを抽出する。
(2)CSCGは、デコーダによって、潜在変数zと文の詳細度に関する条件Cから、時刻t(t=1, 2, …)における単語を出力していくことにより、文を生成する。生成された文は文の詳細度に関する条件Cに近い詳細度を持つ文となる。図4は、生成された文s=”Birds are singing”の詳細度Isが文の詳細度に関する条件Cに近いものとなることを示している。
音響信号に対応する文(つまり、教師データの要素である文)は、人手により付与されたものを用いる。第1学習では、音響信号に対応する文の詳細度を求めて教師データに含める。第1学習では、生成された文と教師データの文の誤差であるLSCGと詳細度に関する誤差であるLspの最小化を同時に達成するように学習する。誤差関数LCSCGには、2つの誤差LSCGとLspを用いて定義されるものを用いることができる。例えば、誤差関数LCSCGとして、次式のような2つの誤差の線形和を用いることができる。
第1学習データの数が少ない場合、第1学習のみによりCSCGを学習すると、CSCGが第1学習データの要素である音響信号に過剰に適合してしまい、詳細度が適切に反映されにくくなることも考えられる。そこで、第1学習データを用いる第1学習に加えて、第2学習データを用いる第2学習により、CSCGを構成するデコーダを学習する。
ここでは、CSCGによる文生成の効果を確認する実験の結果について説明する。実験は、以下の2つを目的として行った。
(1)詳細度による制御可能性の検証
(2)受容可能性(acceptability)に関する主観評価による生成された文の品質の評価
(1)SCGは、詳細度の標準偏差はとても大きい。
(2)CSCGは、入力した詳細度cの値に応じた詳細度を持つ文を生成しており、標準偏差もSCGのそれと比較して小さい。ただし、入力した詳細度cが大きくなるにつれて標準偏差が大きくなる。これは、入力した詳細度cに近い詳細度を持ちつつ音に当てはまる説明文がないためばらつきが大きくなるものと考えられる。
詳細度は、生成される文の持つ性質(具体的には情報量)を制御するための補助的な入力である。生成される文の持つ性質を制御することができるものであれば、詳細度は、単一の数値(スカラー値)であっても、数値の組(ベクトル)であってもよい。以下、いくつか例を挙げる。
単語1個での出現頻度の代わりに、単語の系列の出現頻度を用いる方法である。この方法は、単語の順序を考慮することができるため、より適切に生成される文の持つ性質を制御できる可能性がある。単語の出現確率と同様、説明文データベースを用いて、単語N-gramの出現確率を計算することができる。また、説明文データベースの代わりに、その他利用可能なコーパスを用いてもよい。
詳細度を文に含まれる単語の数とする方法である。なお、単語の数の代わりに、文字の数を用いてもよい。
例えば、これまでに説明した、単語の出現確率、単語N-gramの出現確率、単語の数を組とする3次元ベクトルを詳細度とすることができる。また、例えば、政治、経済、科学のように単語を分類する分野(トピック)を設け、分野ごとに次元を割り当て、各分野の単語の出現確率の組をベクトルとして詳細度を定義してもよい。これにより、各分野に特有の言い回しの反映を図ることが可能になると考えられる。
SCG/CSCGの学習やSCG/CSCGを用いた文の生成の枠組みは、図5に例示した音源のように比較的単純な音以外に、例えば音楽のようにより複雑な音や、音以外のメディアに対しても適用することができる。音以外のメディアには、例えば絵画、イラスト、クリップアートのような画像や、動画がある。また、工業デザインや、味覚であってもよい。
《データ生成モデル学習装置100》
データ生成モデル学習装置100は、学習データを用いて、学習対象となるデータ生成モデルを学習する。ここで、学習データには、音響信号と当該音響信号に対応する自然言語表現の組である第1学習データと自然言語表現に対する指標と当該指標に対応する自然言語表現の組である第2学習データがある。また、データ生成モデルは、音響信号と自然言語表現に対する指標(例えば、文の詳細度)に関する条件を入力とし、当該音響信号に対応する自然言語表現を生成し、出力する関数のことであり、音響信号から音響信号に対応する潜在変数を生成するエンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する自然言語表現を生成するデコーダとの組として構成される(図9参照)。自然言語表現に対する指標に関する条件とは、生成される自然言語表現に要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、エンコーダ、デコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。また、自然言語表現の例として、<技術的背景>で説明した文の他に、主語と述語を伴わない2つ以上の単語からなる句や、擬音語(オノマトペ)がある。
データ生成モデル学習装置150は、学習データを用いて、学習対象となるデータ生成モデルを学習する。データ生成モデル学習装置150は、第1学習データを用いる第1学習のみを実行する点において、データ生成モデル学習装置100と異なる。
データ生成装置200は、データ生成モデル学習装置100またはデータ生成モデル学習装置150を用いて学習したデータ生成モデルを用いて、音響信号と自然言語表現に対する指標に関する条件から、音響信号に対応する自然言語表現を生成する。ここで、データ生成モデル学習装置100またはデータ生成モデル学習装置150を用いて学習したデータ生成モデルのことを学習済みデータ生成モデルともいう。また、学習済みデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ学習済みエンコーダ、学習済みデコーダともいう。なお、データ生成モデル学習装置100、データ生成モデル学習装置150以外のデータ生成モデル学習装置を用いて学習したデータ生成モデルを用いてもよいのはもちろんである。
以下、データ生成モデル学習装置100またはデータ生成モデル学習装置150を用いて学習したデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ音響信号エンコーダ、自然言語表現デコーダという。音響信号エンコーダ、自然言語表現デコーダをそれぞれ学習済み音響信号エンコーダ、学習済み自然言語表現デコーダということもある。
潜在変数生成モデル学習装置300は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置100またはデータ生成モデル学習装置150を用いて学習したデータ生成モデルを用いて、音響信号から生成した、当該音響信号に対応する自然言語表現と当該音響信号に対応する潜在変数との組(以下、教師あり学習データという)である。また、潜在変数生成モデルは、自然言語表現から、自然言語表現に対応する潜在変数を生成する自然言語表現エンコーダのことである。なお、自然言語表現エンコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。
音響信号検索装置400は、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、入力自然言語表現から、入力自然言語表現に対応する音響信号を検索する。ここで、潜在変数生成モデル学習装置300を用いて学習した自然言語表現エンコーダを学習済み自然言語表現エンコーダともいう。なお、潜在変数生成モデル学習装置300以外の潜在変数生成モデル学習装置を用いて学習した自然言語表現エンコーダを用いてもよいのはもちろんである。
《音響信号検索装置500》
音響信号検索装置500は、音響信号データベースを用いて、入力となる音響信号(以下、入力音響信号という)から、入力音響信号に対応する音響信号を検索する。音響信号検索装置500は、潜在変数生成部410の代わりに、潜在変数生成部510を含む点において、音響信号検索装置400と異なる。
《音響信号検索装置600》
音響信号検索装置600は、音響信号データベースを用いて、入力となる自然言語表現(以下、入力自然言語表現という)から、入力自然言語表現に対応する音響信号を検索する。音響信号検索装置600は、潜在変数生成部410の代わりに、第1潜在変数生成部610と選択音響信号決定部640と第2潜在変数生成部650とを含む点において、音響信号検索装置400と異なる。
以下、ドメインとはある種類のデータの集合であるとする。ドメインの例として、例えば、第1実施形態で用いた音響信号の集合である音響信号ドメイン、自然言語表現の集合である自然言語表現ドメインなどがある。また、ドメインのデータの例として、<技術的背景>で説明したように、味覚センサ、嗅覚センサ、触覚センサ、カメラなどを用いて得られる各種信号がある。これらの信号は人間の五感に関わる信号であり、以下、音響信号も含め、感覚情報に基づく信号ということにする。
データ生成モデル学習装置1100は、学習データを用いて、学習対象となるデータ生成モデルを学習する。ここで、学習データには、第1ドメインのデータと当該第1ドメインのデータに対応する第2ドメインのデータの組である第1学習データと第2ドメインのデータに対する指標と当該指標に対応する第2ドメインのデータの組である第2学習データがある。また、データ生成モデルとは、第1ドメインのデータと第2ドメインのデータに対する指標に関する条件を入力とし、当該第1ドメインのデータに対応する第2ドメインのデータを生成し、出力する関数のことであり、第1ドメインのデータから第1ドメインのデータに対応する潜在変数を生成するエンコーダと、潜在変数と第2ドメインのデータに対する指標に関する条件から第1ドメインのデータに対応する第2ドメインのデータを生成するデコーダとの組として構成される。第2ドメインのデータに対する指標に関する条件とは、生成される第2ドメインのデータに要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、エンコーダ、デコーダには、第1ドメインのデータや第2ドメインのデータを処理することができる任意のニューラルネットワークを用いることができる。
データ生成モデル学習装置1150は、学習データを用いて、学習対象となるデータ生成モデルを学習する。データ生成モデル学習装置1150は、第1学習データを用いる第1学習のみを実行する点において、データ生成モデル学習装置1100と異なる。
データ生成装置1200は、データ生成モデル学習装置1100またはデータ生成モデル学習装置1150を用いて学習したデータ生成モデルを用いて、第1ドメインのデータと第2ドメインのデータに対する指標に関する条件から、第1ドメインのデータに対応する第2ドメインのデータを生成する。ここで、データ生成モデル学習装置1100またはデータ生成モデル学習装置1150を用いて学習したデータ生成モデルのことを学習済みデータ生成モデルともいう。また、学習済みデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ学習済みエンコーダ、学習済みデコーダともいう。なお、データ生成モデル学習装置1100、データ生成モデル学習装置1150以外のデータ生成モデル学習装置を用いて学習したデータ生成モデルを用いてもよいのはもちろんである。
第1ドメインのデータを感覚情報に基づく信号、第2ドメインのデータを文または句として、以下、具体例について説明する。
この場合、味覚センサによる信号から、例えば、味にまつわる産地の説明文が得られる。味にまつわる産地の説明文とは、例えば、“2015年甲州産のワイン”のような説明文である。
この場合、嗅覚センサによる信号から、においの説明文が得られる。
この場合、触覚センサや硬度センサによる信号から、例えば、硬さや風合いの説明文が得られる。
この場合、カメラなどの画像センサによる信号から、例えば、動画のキャプションや画像の被写体の説明文が得られる。
以下、データ生成モデル学習装置1100またはデータ生成モデル学習装置1150を用いて学習したデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ第1ドメインエンコーダ、第2ドメインデコーダという。第1ドメインエンコーダ、第2ドメインデコーダをそれぞれ学習済み第1ドメインエンコーダ、学習済み第2ドメインデコーダということもある。
潜在変数生成モデル学習装置1300は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置1100またはデータ生成モデル学習装置1150を用いて学習したデータ生成モデルを用いて、第1ドメインのデータから生成した、当該データに対応する第2ドメインのデータと当該データに対応する潜在変数との組(以下、教師あり学習データという)である。また、潜在変数生成モデルは、第2ドメインのデータから、第2ドメインのデータに対応する潜在変数を生成する第2ドメインエンコーダのことである。なお、第2ドメインエンコーダには、任意のニューラルネットワークを用いることができる。
データ検索装置1400は、第1ドメインエンコーダを用いて第1ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第1ドメインデータベースを用いて、入力第2ドメインデータから、入力第2ドメインデータに対応する第1ドメインのデータを検索する。ここで、潜在変数生成モデル学習装置1300を用いて学習した第2ドメインエンコーダを学習済み第2ドメインエンコーダともいう。なお、潜在変数生成モデル学習装置1300以外の潜在変数生成モデル学習装置を用いて学習した第2ドメインエンコーダを用いてもよいのはもちろんである。
《データ検索装置1500》
データ検索装置1500は、第1ドメインデータベースを用いて、入力となる第1ドメインのデータ(以下、入力第1ドメインデータという)から、入力第1ドメインデータに対応する第1ドメインのデータを検索する。データ検索装置1500は、潜在変数生成部1410の代わりに、潜在変数生成部1510を含む点において、データ検索装置1400と異なる。
《データ検索装置1600》
データ検索装置1600は、第1ドメインデータベースを用いて、入力となる第2ドメインのデータ(以下、入力第2ドメインデータという)から、入力第2ドメインデータに対応する第1ドメインのデータを検索する。データ検索装置1600は、潜在変数生成部1410の代わりに、第1潜在変数生成部1610と選択データ決定部1640と第2潜在変数生成部1650とを含む点において、データ検索装置1400と異なる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (16)
- 音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
入力となる自然言語表現(以下、入力自然言語表現という)から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する潜在変数生成部と、
前記音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部と、
を含む音響信号検索装置であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索装置。 - 請求項1に記載の音響信号検索装置であって、
前記入力自然言語表現は、擬音語以外の自然言語表現である
ことを特徴とする音響信号検索装置。 - 音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
入力となる音響信号(以下、入力音響信号という)から、前記音響信号エンコーダを用いて、前記入力音響信号に対応する潜在変数を生成する潜在変数生成部と、
前記音響信号データベースを用いて、前記入力音響信号に対応する潜在変数から、前記入力音響信号に対応する音響信号を検索結果として決定する検索部と、
を含む音響信号検索装置であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索装置。 - 音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
入力となる自然言語表現(以下、入力自然言語表現という)から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する第1潜在変数生成部と、
前記音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数または選択音響信号に対応する潜在変数から、前記入力自然言語表現に対応する音響信号または前記選択音響信号に対応する音響信号を検索結果として決定する検索部と、
前記検索結果の中にユーザの要求を満たす音響信号がある場合は、当該音響信号を出力し、そうでない場合は、前記検索結果の1つを前記選択音響信号として決定する選択音響信号決定部と、
を含む音響信号検索装置であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索装置。 - 請求項1ないし4のいずれか1項に記載の音響信号検索装置であって、
前記音響信号エンコーダは、データ生成モデル学習装置が、音響信号と当該音響信号に対応する自然言語表現の組である第1学習データと当該第1学習データの要素である自然言語表現に対する指標とを用いて、学習したデータ生成モデルを構成するエンコーダである
ことを特徴とする音響信号検索装置。 - 請求項1ないし4のいずれか1項に記載の音響信号検索装置であって、
前記検索部は、潜在空間で定義される距離を用いて、前記検索結果を決定する
ことを特徴とする音響信号検索装置。 - 音響信号検索装置が、入力となる自然言語表現(以下、入力自然言語表現という)から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する潜在変数生成ステップと、
前記音響信号検索装置が、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索ステップと、
を含む音響信号検索方法であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索方法。 - 音響信号検索装置が、入力となる音響信号(以下、入力音響信号という)から、音響信号エンコーダを用いて、前記入力音響信号に対応する潜在変数を生成する潜在変数生成ステップと、
前記音響信号検索装置が、前記音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、前記入力音響信号に対応する潜在変数から、前記入力音響信号に対応する音響信号を検索結果として決定する検索ステップと、
を含む音響信号検索方法であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索方法。 - 音響信号検索装置が、入力となる自然言語表現(以下、入力自然言語表現という)から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する第1潜在変数生成ステップと、
前記音響信号検索装置が、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数または選択音響信号に対応する潜在変数から、前記入力自然言語表現に対応する音響信号または前記選択音響信号に対応する音響信号を検索結果として決定する検索ステップと、
前記音響信号検索装置が、前記検索結果の中にユーザの要求を満たす音響信号がある場合は、当該音響信号を出力し、そうでない場合は、前記検索結果の1つを前記選択音響信号として決定する選択音響信号決定ステップと、
を含む音響信号検索方法であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索方法。 - 第1ドメインエンコーダを用いて第1ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第1ドメインデータベースを記録する記録部と、
入力となる第2ドメインのデータ(以下、入力第2ドメインデータという)から、第2ドメインエンコーダを用いて、前記入力第2ドメインデータに対応する潜在変数を生成する潜在変数生成部と、
前記第1ドメインデータベースを用いて、前記入力第2ドメインデータに対応する潜在変数から、前記入力第2ドメインデータに対応する第1ドメインのデータを検索結果として決定する検索部と、
を含むデータ検索装置であって、
前記第1ドメインエンコーダを用いて第1ドメインのデータから生成される潜在変数は、第2ドメインデコーダを用いて、当該潜在変数と第2ドメインのデータに対する指標に関する条件から、当該第1ドメインのデータに対応する第2ドメインのデータを生成することができるものである
データ検索装置。 - 第1ドメインエンコーダを用いて第1ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第1ドメインデータベースを記録する記録部と、
入力となる第1ドメインのデータ(以下、入力第1ドメインデータという)から、前記第1ドメインエンコーダを用いて、前記入力第1ドメインデータに対応する潜在変数を生成する潜在変数生成部と、
前記第1ドメインデータベースを用いて、前記入力第1ドメインデータに対応する潜在変数から、前記入力第1ドメインデータに対応する第1ドメインのデータを検索結果として決定する検索部と、
を含むデータ検索装置であって、
前記第1ドメインエンコーダを用いて第1ドメインのデータから生成される潜在変数は、第2ドメインデコーダを用いて、当該潜在変数と第2ドメインのデータに対する指標に関する条件から、当該第1ドメインのデータに対応する第2ドメインのデータを生成することができるものである
データ検索装置。 - 第1ドメインエンコーダを用いて第1ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第1ドメインデータベースを記録する記録部と、
入力となる第2ドメインのデータ(以下、入力第2ドメインデータという)から、第2ドメインエンコーダを用いて、前記入力第2ドメインデータに対応する潜在変数を生成する第1潜在変数生成部と、
前記第1ドメインデータベースを用いて、前記入力第2ドメインデータに対応する潜在変数または選択データに対応する潜在変数から、前記入力第2ドメインデータに対応する第1ドメインのデータまたは前記選択データに対応する第1ドメインのデータを検索結果として決定する検索部と、
前記検索結果の中にユーザの要求を満たす第1ドメインのデータがある場合は、当該データを出力し、そうでない場合は、前記検索結果の1つを前記選択データとして決定する選択データ決定部と、
を含むデータ検索装置であって、
前記第1ドメインエンコーダを用いて第1ドメインのデータから生成される潜在変数は、第2ドメインデコーダを用いて、当該潜在変数と第2ドメインのデータに対する指標に関する条件から、当該第1ドメインのデータに対応する第2ドメインのデータを生成することができるものである
データ検索装置。 - データ検索装置が、入力となる第2ドメインのデータ(以下、入力第2ドメインデータという)から、第2ドメインエンコーダを用いて、前記入力第2ドメインデータに対応する潜在変数を生成する潜在変数生成ステップと、
前記データ検索装置が、第1ドメインエンコーダを用いて第1ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第1ドメインデータベースを用いて、前記入力第2ドメインデータに対応する潜在変数から、前記入力第2ドメインデータに対応する第1ドメインのデータを検索結果として決定する検索ステップと、
を含むデータ検索方法であって、
前記第1ドメインエンコーダを用いて第1ドメインのデータから生成される潜在変数は、第2ドメインデコーダを用いて、当該潜在変数と第2ドメインのデータに対する指標に関する条件から、当該第1ドメインのデータに対応する第2ドメインのデータを生成することができるものである
データ検索方法。 - データ検索装置が、入力となる第1ドメインのデータ(以下、入力第1ドメインデータという)から、第1ドメインエンコーダを用いて、前記入力第1ドメインデータに対応する潜在変数を生成する潜在変数生成ステップと、
前記データ検索装置が、前記第1ドメインエンコーダを用いて第1ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第1ドメインデータベースを用いて、前記入力第1ドメインデータに対応する潜在変数から、前記入力第1ドメインデータに対応する第1ドメインのデータを検索結果として決定する検索ステップと、
を含むデータ検索方法であって、
前記第1ドメインエンコーダを用いて第1ドメインのデータから生成される潜在変数は、第2ドメインデコーダを用いて、当該潜在変数と第2ドメインのデータに対する指標に関する条件から、当該第1ドメインのデータに対応する第2ドメインのデータを生成することができるものである
データ検索方法。 - データ検索装置が、入力となる第2ドメインのデータ(以下、入力第2ドメインデータという)から、第2ドメインエンコーダを用いて、前記入力第2ドメインデータに対応する潜在変数を生成する第1潜在変数生成ステップと、
前記データ検索装置が、第1ドメインエンコーダを用いて第1ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第1ドメインデータベースを用いて、前記入力第2ドメインデータに対応する潜在変数または選択データに対応する潜在変数から、前記入力第2ドメインデータに対応する第1ドメインのデータまたは前記選択データに対応する第1ドメインのデータを検索結果として決定する検索ステップと、
前記データ検索装置が、前記検索結果の中にユーザの要求を満たす第1ドメインのデータがある場合は、当該データを出力し、そうでない場合は、前記検索結果の1つを前記選択データとして決定する選択データ決定ステップと、
を含むデータ検索方法であって、
前記第1ドメインエンコーダを用いて第1ドメインのデータから生成される潜在変数は、第2ドメインデコーダを用いて、当該潜在変数と第2ドメインのデータに対する指標に関する条件から、当該第1ドメインのデータに対応する第2ドメインのデータを生成することができるものである
データ検索方法。 - 請求項1ないし6のいずれか1項に記載の音響信号検索装置、請求項10ないし12のいずれか1項に記載のデータ検索装置のいずれかとしてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019097310 | 2019-05-24 | ||
JP2019097310 | 2019-05-24 | ||
PCT/JP2020/015791 WO2020241070A1 (ja) | 2019-05-24 | 2020-04-08 | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2020241070A1 JPWO2020241070A1 (ja) | 2020-12-03 |
JPWO2020241070A5 JPWO2020241070A5 (ja) | 2022-02-14 |
JP7283718B2 true JP7283718B2 (ja) | 2023-05-30 |
Family
ID=73552321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021522679A Active JP7283718B2 (ja) | 2019-05-24 | 2020-04-08 | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220245191A1 (ja) |
JP (1) | JP7283718B2 (ja) |
WO (1) | WO2020241070A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11625543B2 (en) * | 2020-05-31 | 2023-04-11 | Salesforce.Com, Inc. | Systems and methods for composed variational natural language generation |
WO2023135776A1 (ja) * | 2022-01-17 | 2023-07-20 | 日本電信電話株式会社 | 音推定モデル取得装置、音推定装置、音推定モデル取得方法、音推定方法及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2897701B2 (ja) | 1995-11-20 | 1999-05-31 | 日本電気株式会社 | 効果音検索装置 |
JP2019003274A (ja) | 2017-06-12 | 2019-01-10 | 日本電信電話株式会社 | 検知システム、検知方法及び検知プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0535788A (ja) * | 1991-07-29 | 1993-02-12 | Toshiba Corp | 情報処理装置 |
JP5499362B2 (ja) * | 2010-07-14 | 2014-05-21 | 日本電信電話株式会社 | 半教師信号認識検索装置、半教師信号認識検索方法及びプログラム |
KR102608469B1 (ko) * | 2017-12-22 | 2023-12-01 | 삼성전자주식회사 | 자연어 생성 방법 및 장치 |
-
2020
- 2020-04-08 WO PCT/JP2020/015791 patent/WO2020241070A1/ja active Application Filing
- 2020-04-08 US US17/612,197 patent/US20220245191A1/en active Pending
- 2020-04-08 JP JP2021522679A patent/JP7283718B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2897701B2 (ja) | 1995-11-20 | 1999-05-31 | 日本電気株式会社 | 効果音検索装置 |
JP2019003274A (ja) | 2017-06-12 | 2019-01-10 | 日本電信電話株式会社 | 検知システム、検知方法及び検知プログラム |
Non-Patent Citations (1)
Title |
---|
井川 翔太 外,LSTMを用いた音響信号からの擬音語生成,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会 ,2017年12月14日,Vol. 117 No.368,pp.17-20 |
Also Published As
Publication number | Publication date |
---|---|
US20220245191A1 (en) | 2022-08-04 |
JPWO2020241070A1 (ja) | 2020-12-03 |
WO2020241070A1 (ja) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086408B (zh) | 文本生成方法、装置、电子设备及计算机可读介质 | |
Hill et al. | The goldilocks principle: Reading children's books with explicit memory representations | |
KR100760301B1 (ko) | 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치 | |
Ostendorf et al. | Human language technology: Opportunities and challenges | |
Thiessen et al. | Beyond word segmentation: A two-process account of statistical learning | |
JP7205839B2 (ja) | データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム | |
JP2007323475A (ja) | 自然言語における多義解消装置及びコンピュータプログラム | |
CN101116073A (zh) | 信息处理设备、信息处理方法及程序 | |
JP7283718B2 (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
King et al. | Greater early disambiguating information for less-probable words: The lexicon is shaped by incremental processing | |
KR20210044697A (ko) | Ai 기반 질의응답 시스템 및 방법 | |
Victor et al. | Application of extractive text summarization algorithms to speech-to-text media | |
Gupta et al. | A novel approach to perform context‐based automatic spoken document retrieval of political speeches based on wavelet tree indexing | |
JP2023071785A (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
JP2023071771A (ja) | データ生成モデル学習装置、データ生成装置、データ生成モデル学習方法、データ生成方法、プログラム | |
KR102418260B1 (ko) | 고객 상담 기록 분석 방법 | |
Marian | Orthographic and phonological neighborhood databases across multiple languages | |
Paaß et al. | Pre-trained Language Models | |
Bao | Analysis of music retrieval based on emotional tags environment | |
Roul et al. | Abstractive text summarization using enhanced attention model | |
Tüselmann et al. | A weighted combination of semantic and syntactic word image representations | |
Hernandez et al. | Autoblog 2021: The Importance of Language Models for Spontaneous Lecture Speech | |
Liu | Discovering topic trends for conference analytics | |
Švec et al. | Asking Questions Framework for Oral History Archives | |
Sultana et al. | BERT-PRF: An Efficient Approach for Intent Detection from Users Search Query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211117 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20211117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20211117 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20211117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7283718 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |