JP7283718B2

JP7283718B2 - 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム

Info

Publication number: JP7283718B2
Application number: JP2021522679A
Authority: JP
Inventors: 邦夫柏野; 翔太井川
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2019-05-24
Filing date: 2020-04-08
Publication date: 2023-05-30
Anticipated expiration: 2040-04-08
Also published as: US20220245191A1; JPWO2020241070A1; WO2020241070A1

Description

特許法第３０条第２項適用（１）発行日２０１８年８月２９日刊行物一般社団法人日本音響学会２０１８年秋季研究発表会講演論文集講演要旨・講演論文ＣＤ－ＲＯＭ２－２－１（２）ウェブサイト掲載日２０１９年５月２７日ウェブサイトのアドレス日本電信電話株式会社ニュースリリースウェブサイトｈｔｔｐｓ：／／ｗｗｗ．ｎｔｔ．ｃｏ．ｊｐ／ｎｅｗｓ２０１９／１９０５／１９０５２７ｂ．ｈｔｍｌ（３）開催日２０１９年５月３０日～２０１９年５月３１日（公知日：２０１９年５月３０日、３１日）集会名、開催場所ＮＴＴコミュニケーション科学基礎研究所オープンハウス２０１９ｈｔｔｐ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｏｐｅｎｈｏｕｓｅ／２０１９／ｉｎｄｅｘ．ｈｔｍｌ主催：日本電信電話株式会社ＮＴＴコミュニケーション科学基礎研究所開催場所京都府相楽郡精華町光台２－４（けいはんな学研都市）ＮＴＴ京阪奈ビルＢ棟３階大会議室（４）開催日２０１９年１０月２５日～２０１９年１０月２６日（公知日２０１９年１０月２５日）集会名ＤＣＡＳＥＷｏｒｋｓｈｏｐ（予稿集）ｈｔｔｐ：／／ｄｃａｓｅ．ｃｏｍｍｕｎｉｔｙ／ａｒｔｉｃｌｅｓ／ｄｃａｓｅ２０１９－ｂｅｓｔ－ｐａｐｅｒ－ａｗａｒｄｓ

本発明は、音響信号を検索する技術に関する。

近年、膨大な量の音響信号が蓄積されるようになり、目的の音響信号を効率的に検索する技術（以下、音響信号検索技術という）の需要が増大している。例えば、音響情報を他者に伝える際に、類似する音を音響信号データベースから選択して説明に用いることは、設備の保守点検・警備・ヘルプデスク業務など様々な場面において効率的な情報伝達を可能とする。また、効果音データベースから適切な効果音を選択することは、映像やゲーム、楽曲などの制作において重要な役割を果たす。

音響信号検索技術の手法の１つとして、テキストデータをクエリとする検索手法がある。この手法では、音響信号に付与された分類タグや説明文などとクエリとを照合することによる検索を行う。こうしたテキストデータを用いた検索の１つとして、擬音語をクエリとした検索が提案されている。人間が日常生活で用いる擬音語をクエリとして用いることで、より自然なヒューマン・コンピュータ・インタラクションが実現される。非特許文献１では、例えば擬音語をクエリとした検索として、音響信号にあらかじめ付与された擬音語タグと擬音語クエリとの間のテキスト類似度に基づくテキストベース音響信号検索が提案されている。

岡本香帆里, 山西良典, 松下光範, "複数観点に基づく探索的効果音検索システム:SERVAの開発とユーザ観察", DEIM Forum 2016, E3-6, 2016年.

しかし、擬音語をクエリとするテキストベース音響信号検索には、以下に挙げる問題がある。

（問題）１種類の擬音語に対応する音響信号は数多く存在するため、多くの同順位の音響信号が存在し得ることである。例えば、“パン”という擬音語は打撃音や破裂音など特徴の大きく異なる音響信号に共通して用いられる。また、このうち打撃音のみについても、周波数スペクトルやパワーエンベロープの異なる多数の音が“パン”という擬音語で表現される。この問題は、擬音語が音響情報を極めて圧縮した離散的な表現形式であるため発生する。このような音響信号のうち、より擬音語クエリへの適合度の高い音響信号が得られることが望ましいが、テキストベース音響信号検索ではこれらに順位付けを行うことは困難である。この問題はデータベースのサイズが大きくなるにつれ顕在化し、多くの音響信号を同列にユーザに提示することでユーザビリティが著しく損なわれる。

そこで本発明では、テキストデータによりタグ付けすることなく、音響信号を検索することができる音響信号検索技術を提供することを目的とする。

本発明の一態様は、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、入力となる自然言語表現（以下、入力自然言語表現という）から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する潜在変数生成部と、前記音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部と、を含む。

本発明の一態様は、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、入力となる音響信号（以下、入力音響信号という）から、前記音響信号エンコーダを用いて、前記入力音響信号に対応する潜在変数を生成する潜在変数生成部と、前記音響信号データベースを用いて、前記入力音響信号に対応する潜在変数から、前記入力音響信号に対応する音響信号を検索結果として決定する検索部と、を含む。

本発明の一態様は、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、入力となる自然言語表現（以下、入力自然言語表現という）から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する第１潜在変数生成部と、前記音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数または選択音響信号に対応する潜在変数から、前記入力自然言語表現に対応する音響信号または前記選択音響信号に対応する音響信号を検索結果として決定する検索部と、前記検索結果の中にユーザの要求を満たす音響信号がある場合は、当該音響信号を出力し、そうでない場合は、前記検索結果の１つを前記選択音響信号として決定する選択音響信号決定部と、前記選択音響信号から、前記音響信号エンコーダを用いて、前記選択音響信号に対応する潜在変数を生成する第２潜在変数生成部と、を含む。

本発明によれば、テキストデータによりタグ付けすることなく、音響信号を検索することが可能となる。

SCGを説明する図である。文の詳細度を説明する図である。文の詳細度を説明する図である。 CSCGを説明する図である。実験結果を示す図である。実験結果を示す図である。実験結果を示す図である。実験結果を示す図である。データ生成モデルの概要を示す図である。データ生成モデル学習装置１００の構成を示すブロック図である。データ生成モデル学習装置１００の動作を示すフローチャートである。データ生成モデル学習装置１５０の構成を示すブロック図である。データ生成モデル学習装置１５０の動作を示すフローチャートである。データ生成装置２００の構成を示すブロック図である。データ生成装置２００の動作を示すフローチャートである。音響信号検索処理の概要を示す図である。潜在変数生成モデル学習装置３００の構成を示すブロック図である。潜在変数生成モデル学習装置３００の動作を示すフローチャートである。音響信号検索装置４００の構成を示すブロック図である。音響信号検索装置４００の動作を示すフローチャートである。音響信号検索装置５００の構成を示すブロック図である。音響信号検索装置５００の動作を示すフローチャートである。音響信号検索装置６００の構成を示すブロック図である。音響信号検索装置６００の動作を示すフローチャートである。選択音響信号決定部６４０の構成を示すブロック図である。選択音響信号決定部６４０の動作を示すフローチャートである。データ生成モデル学習装置１１００の構成を示すブロック図である。データ生成モデル学習装置１１００の動作を示すフローチャートである。データ生成モデル学習装置１１５０の構成を示すブロック図である。データ生成モデル学習装置１１５０の動作を示すフローチャートである。データ生成装置１２００の構成を示すブロック図である。データ生成装置１２００の動作を示すフローチャートである。潜在変数生成モデル学習装置１３００の構成を示すブロック図である。潜在変数生成モデル学習装置１３００の動作を示すフローチャートである。データ検索装置１４００の構成を示すブロック図である。データ検索装置１４００の動作を示すフローチャートである。データ検索装置１５００の構成を示すブロック図である。データ検索装置１５００の動作を示すフローチャートである。データ検索装置１６００の構成を示すブロック図である。データ検索装置１６００の動作を示すフローチャートである。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

各実施形態の説明に先立って、この明細書における表記方法について説明する。

^（キャレット）は上付き添字を表す。例えば、x^{y^z}はy^zがxに対する上付き添字であり、x_y^zはy^zがxに対する下付き添字であることを表す。また、_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

＜技術的背景＞
本発明の実施形態では、音響信号から、当該音響信号に対応する文を生成する際、文生成モデルを用いる。ここで、文生成モデルとは、音響信号を入力とし、対応する文を出力する関数のことである。また、音響信号に対応する文とは、例えば、当該音響信号がどのような音であるのかを説明する文（当該音響信号の説明文）のことである。

まず、文生成モデルの一例としてSCG (Sequence-to-sequence Caption Generator)と呼ぶモデルについて説明する。

《SCG》
SCGは、図１に示すように、デコーダに参考非特許文献１に記載のRLM(Recurrent Language Model)を採用したエンコーダ－デコーダモデルである。
（参考非特許文献１：T. Mikolov, M. Karafiat, L. Burget, J. Cernock`y, and S. Khudanpur, “Recurrent neural network based language model”, In INTERSPEECH 2010, pp.1045-1048, 2010.）

図１を参照して、SCGを説明する。SCGは、以下のステップにより、入力された音響信号から、当該音響信号に対応する文を生成し、出力する。なお、音響信号の代わりに、音響信号から抽出された音響特徴量(Acoustic features)、例えば、メル周波数ケプストラム係数（MFCC）の系列を用いてもよい。また、テキストデータである文は、単語の列である。
（１）SCGは、エンコーダによって、音響信号から音の分散表現である潜在変数(Latent variable)zを抽出する。潜在変数zは、所定の次元（例えば、128次元）のベクトルとして表現される。この潜在変数zは、文生成のための十分な情報を含んだ音響信号の要約特徴量であるといえる。したがって、潜在変数zは音響信号と文の双方の特徴を有する固定長ベクトルであるともいえる。
（２）SCGは、デコーダによって、潜在変数zから、時刻t(t=1, 2, …)における単語w_tを出力していくことにより、文を生成する。デコーダの出力層(Output layer)は、時刻tにおける単語の生成確率p_t(w)から、次式により時刻tにおける単語w_tを出力する。

図１は、時刻t=1における単語w₁が”Birds”、時刻t=2における単語w₂が”are”、時刻t=3における単語w₃が”singing”であり、文”Birds are singing”が生成されることを表している。なお、図１中の<BOS>、<EOS>はそれぞれ開始記号、終端記号である。

SCGを構成するエンコーダとデコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。例えば、RNN(Recurrent Neural Network)やLSTM(Long Short-Term Memory)を用いることができる。なお、図１中のBLSTM、layered LSTMはそれぞれ双方向LSTM(Bi-directional LSTM)、多層LSTMを表す。

SCGは、音響信号と当該音響信号に対応する文（この文のことを教師データという）の組を教師あり学習データとして用いる教師あり学習により学習される。時刻tにおいてデコーダが出力する単語と、教師データの文に含まれる、時刻tにおける単語とのクロスエントロピーの総和を誤差関数L_SCGとして、誤差逆伝播法によりSCGを学習する。

上記学習により得られるSCGの出力である文は、その記述の詳細さにおいて、ばらつきが生じてしまう。これは、以下のような理由による。１つの音響信号に対して正しい文は１つではない。言い換えると、１つの音響信号に対して記述の詳細さが様々に異なる多数の“正しい文”が存在しうる。例えば、“低い音が鳴る”、“楽器をしばらく鳴らしている”、“弦楽器を低い音で鳴らし始めて、その後ゆっくりと音量が下がっていく”のように、１つの音響信号に対してその音響信号の様子を記述する正しい文は複数ありえ、これらの文の中でどの文が好ましいのかは場面によって異なる。例えば、端的な記述が欲しい場面もあれば、詳しい記述が欲しい場面もある。そのため、記述の詳細さが異なる文を区別せずにSCGの学習を実行すると、SCGは、生成する文の傾向を制御することができなくなる。

《詳細度》
上記ばらつきの問題を解決するために、文の詳細さの程度を示す指標である詳細度(Specificity)を定義する。n個の単語の列[w₁, w₂, …, w_n]である文sの詳細度I_sを次式により定義する。

ただし、I_{w_t}は単語w_tの出現確率p_{w_t}に基づき定まる単語w_tの情報量である。例えば、I_{w_t}=-log(p_{w_t})とするとよい。ここで、単語w_tの出現確率p_{w_t}は、例えば、説明文データベースを用いて求めることができる。説明文データベースとは、複数の音響信号に対して各々の音響信号を説明する文を１以上格納したデータベースであり、説明文データベースに含まれる文に含まれる単語ごとにその出現頻度を求め、当該単語の出現頻度をすべての単語の出現頻度の和で割ることにより、単語の出現確率を求めることができる。

このように定義した詳細度は、以下のような特徴を有する。
（１）具体的な物体や動作を表す単語を用いた文は詳細度が高くなる（図２参照）。

これは、このような単語は出現頻度が低く、情報量が大きくなるためである。
（２）使用する単語数が多い文は詳細度が高くなる（図３参照）。

詳細度の最適値は、対象とする音の性質や用途により異なる。例えば、より詳しく音を描写したい場合は、文の詳細度は高い方が好ましいし、端的な説明が欲しい場合は、文の詳細度は低い方が好ましい。また、詳細度が高い文は不正確になりやすいという問題もある。したがって、音響信号の記述に求められる情報の粒度に応じて、詳細度を自由に制御して、音響信号に対応する文を生成できることが重要になる。このような文生成を可能とするモデルとして、CSCG (Conditional Sequence-to-sequence Caption Generator)を説明する。

《CSCG》
CSCGは、SCGと同様、デコーダにRLMを採用したエンコーダ－デコーダモデルである。ただし、CSCGでは、デコーダに条件付けを行うことにより、生成される文の詳細度(Specificity of the sentence)を制御する（図４参照）。条件付けは、文の詳細度に関する条件(Specificitical Condition)をデコーダの入力とすることにより行う。ここで、文の詳細度に関する条件とは、生成される文の詳細度に関する条件を指定するものである。

図４を参照して、CSCGを説明する。CSCGは、以下のステップにより、入力された音響信号と文の詳細度に関する条件から、当該音響信号に対応する文を生成し、出力する。
（１）CSCGは、エンコーダによって、音響信号から音の分散表現である潜在変数zを抽出する。
（２）CSCGは、デコーダによって、潜在変数zと文の詳細度に関する条件Cから、時刻t(t=1, 2, …)における単語を出力していくことにより、文を生成する。生成された文は文の詳細度に関する条件Cに近い詳細度を持つ文となる。図４は、生成された文s=”Birds are singing”の詳細度I_sが文の詳細度に関する条件Cに近いものとなることを示している。

CSCGは、音響信号と当該音響信号に対応する文の組である学習データ（以下、第１学習データという）を用いる教師あり学習（以下、第１学習という）により学習することができる。また、CSCGは、第１学習データを用いる第１学習と、文の詳細度と当該詳細度に対応する文の組である学習データ（以下、第２学習データという）を用いる教師あり学習（以下、第２学習という）とにより学習することもできる。この場合、例えば、第１学習と第２学習を１エポックずつ交互に実行することにより、CSCGは学習される。また、例えば、第１学習と第２学習を所定の方法で混在させながら両学習を実行することにより、CSCGは学習される。このとき、第１学習の実行回数と第２学習の実行回数は異なる値となってもよい。

（１）第１学習
音響信号に対応する文（つまり、教師データの要素である文）は、人手により付与されたものを用いる。第１学習では、音響信号に対応する文の詳細度を求めて教師データに含める。第１学習では、生成された文と教師データの文の誤差であるL_SCGと詳細度に関する誤差であるL_spの最小化を同時に達成するように学習する。誤差関数L_CSCGには、２つの誤差L_SCGとL_spを用いて定義されるものを用いることができる。例えば、誤差関数L_CSCGとして、次式のような２つの誤差の線形和を用いることができる。

ここで、λは所定の定数である。

なお、誤差L_spの具体的な定義については後述する。

（２）第２学習
第１学習データの数が少ない場合、第１学習のみによりCSCGを学習すると、CSCGが第１学習データの要素である音響信号に過剰に適合してしまい、詳細度が適切に反映されにくくなることも考えられる。そこで、第１学習データを用いる第１学習に加えて、第２学習データを用いる第２学習により、CSCGを構成するデコーダを学習する。

第２学習では、学習中のデコーダを用いて、第２学習データの要素である詳細度cに対応する文を生成し、第２学習データの要素である文を当該生成された文に対する教師データとして、誤差L_spを最小化するようにデコーダを学習する。なお、第２学習データの要素である詳細度cは、例えば、乱数生成のように、所定の方法で生成されたものを用いればよい。また、第２学習データの要素である文は、詳細度cと近い（つまり、詳細度cとの差が所定の閾値より小さいあるいは以下である）詳細度を持つ文である。

具体的には、生成された文と詳細度cと近い詳細度を持つ文の誤差であるL_SCGを用いて正則化する。

ここで、λ’はλ’<1を満たす定数である。

第１学習に加えて、第２学習を実行することにより、CSCGの汎化性能を向上させることができる。

誤差L_spは、第１学習の場合は、生成された文の詳細度と教師データの文の詳細度との差、第２学習の場合は、生成された文の詳細度と教師データとして与える詳細度との差として定義することもできるが、このように誤差L_spを定義すると、時刻tにおける出力を得る時点で１つの単語への離散化を行うため、誤差を逆伝播することができない。そこで、誤差逆伝播法による学習を可能とするため、生成された文の詳細度の代わりに、その推定値を用いることが有効である。例えば、生成された文sの推定詳細度^I_sとして、次式で定義されるものを用いることができる。

ただし、時刻tにおけるデコーダの出力層のユニットjの値p(w_t,j)は、ユニットjに対応する単語w_t,jの生成確率、I_{w_t,j}は単語w_t,jの生成確率p_{w_t,j}に基づき定まる単語w_t,jの情報量である。

そして、誤差L_spを、第１学習の場合、推定詳細度^I_sと教師データの文の詳細度との差、第２学習の場合、推定詳細度^I_sと教師データとして与える詳細度との差として定義する。

《実験》
ここでは、CSCGによる文生成の効果を確認する実験の結果について説明する。実験は、以下の２つを目的として行った。
（１）詳細度による制御可能性の検証
（２）受容可能性(acceptability)に関する主観評価による生成された文の品質の評価

まず、実験に用いたデータについて、説明する。楽器音や音声などの音響イベントを収録した（6秒以内の）音響信号から、説明文付き音源（教師あり学習データ）を392個、説明文のない音源（教師なし学習データ）を579個生成した。なお、説明文付き音源を生成する際、各音源に1～4個の説明文を付与することした。ここで、付与された説明文の総数は1113個である。また、これらの説明文は、被験者に各音源を聞いてもらいどのような音であるか説明する文を書いてもらうことにより、生成したものである。さらに、上記1113個の説明文に対して、部分的な削除や置換を行うことより、説明文を21726個に増加させ、21726個の説明文を用いて説明文データベースを構成した。

以下、実験結果について説明する。実験結果は、SCGとCSCGの比較という形で評価することとした。実験では、学習済みのSCGと、学習済みのCSCGとを用いて、文を生成した。

まず、目的（１）に関する実験結果について説明する。図５は、音源に対してSCGやCSCGによりどのような文が生成されたかを示す表である。例えば、指を鳴らした音源に対して、SCGにより“軽やかな音が一瞬だけ鳴る”という文（Generated caption）が生成され、詳細度を20としてCSCGにより“指が鳴らされる”という文が生成されたことを示す。また、図６は、各モデルの詳細度の平均と標準偏差を示す表である。これらの統計量は29個の音源をテストデータとして文を生成した結果から算出したものである。図６の表から、詳細度に関して以下のことがわかる。
（１）SCGは、詳細度の標準偏差はとても大きい。
（２）CSCGは、入力した詳細度cの値に応じた詳細度を持つ文を生成しており、標準偏差もSCGのそれと比較して小さい。ただし、入力した詳細度cが大きくなるにつれて標準偏差が大きくなる。これは、入力した詳細度cに近い詳細度を持ちつつ音に当てはまる説明文がないためばらつきが大きくなるものと考えられる。

CSCGは、生成した文の詳細度のばらつきを抑制し、詳細度に応じた文を生成できていることがわかる。

次に、目的（２）に関する実験結果について説明する。まず、SCGを用いて生成した文が主観的に受け入れられるどうかを4段階評価した。次に、SCGを用いて生成した文とCSCGを用いて生成した文とを比較評価した。

4段階評価では、29の音源をテストデータとして用い、すべてのテストデータに対して41名の被験者が回答する形を採用した。図７にその結果を示す。平均値は1.45、分散は1.28であった。このことから、SCGを用いて生成した文は平均的に”部分的に当てはまる”より高い評価を獲得していることがわかる。

また、比較評価では、c=20, 50, 80, 100の4通りの条件でCSCGを用いて生成した文とSCGを用いて生成した文とを比較評価し、4通りの比較評価のうち最もCSCGを高く評価した回答を選択・集計した。図８にその結果を示す。100の音源をテストデータとして、19名の被験者に回答してもらったものであり、CSCGは有意水準を1%として有意にSCGより高い評価を獲得した。なお、平均値は0.80、分散は1.07であった。

《詳細度のバリエーション》
詳細度は、生成される文の持つ性質（具体的には情報量）を制御するための補助的な入力である。生成される文の持つ性質を制御することができるものであれば、詳細度は、単一の数値（スカラー値）であっても、数値の組（ベクトル）であってもよい。以下、いくつか例を挙げる。

（例１）N個の単語の系列である単語N-gramの出現頻度に基づく方法
単語1個での出現頻度の代わりに、単語の系列の出現頻度を用いる方法である。この方法は、単語の順序を考慮することができるため、より適切に生成される文の持つ性質を制御できる可能性がある。単語の出現確率と同様、説明文データベースを用いて、単語N-gramの出現確率を計算することができる。また、説明文データベースの代わりに、その他利用可能なコーパスを用いてもよい。

（例２）単語の数に基づく方法
詳細度を文に含まれる単語の数とする方法である。なお、単語の数の代わりに、文字の数を用いてもよい。

（例３）ベクトルを用いる方法
例えば、これまでに説明した、単語の出現確率、単語N-gramの出現確率、単語の数を組とする３次元ベクトルを詳細度とすることができる。また、例えば、政治、経済、科学のように単語を分類する分野（トピック）を設け、分野ごとに次元を割り当て、各分野の単語の出現確率の組をベクトルとして詳細度を定義してもよい。これにより、各分野に特有の言い回しの反映を図ることが可能になると考えられる。

《応用例》
SCG/CSCGの学習やSCG/CSCGを用いた文の生成の枠組みは、図５に例示した音源のように比較的単純な音以外に、例えば音楽のようにより複雑な音や、音以外のメディアに対しても適用することができる。音以外のメディアには、例えば絵画、イラスト、クリップアートのような画像や、動画がある。また、工業デザインや、味覚であってもよい。

SCG/CSCG同様、これらのデータと当該データに対応する文を対応づけるモデルを学習し、当該モデルを用いて文を生成することも可能である。例えば、味覚の場合、味覚センサからの信号を入力として、ワインや農作物等についての記述／論評である文を生成することも可能になる。この場合、味覚センサ以外に嗅覚センサ、触覚センサ、カメラからの信号もあわせて入力とするようにしてもよい。

なお、非時系列データを扱う場合は、例えば、CNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、エンコーダやデコーダを構成するようにすればよい。

＜第１実施形態＞
《データ生成モデル学習装置１００》
データ生成モデル学習装置１００は、学習データを用いて、学習対象となるデータ生成モデルを学習する。ここで、学習データには、音響信号と当該音響信号に対応する自然言語表現の組である第１学習データと自然言語表現に対する指標と当該指標に対応する自然言語表現の組である第２学習データがある。また、データ生成モデルは、音響信号と自然言語表現に対する指標（例えば、文の詳細度）に関する条件を入力とし、当該音響信号に対応する自然言語表現を生成し、出力する関数のことであり、音響信号から音響信号に対応する潜在変数を生成するエンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する自然言語表現を生成するデコーダとの組として構成される（図９参照）。自然言語表現に対する指標に関する条件とは、生成される自然言語表現に要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、エンコーダ、デコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。また、自然言語表現の例として、＜技術的背景＞で説明した文の他に、主語と述語を伴わない２つ以上の単語からなる句や、擬音語（オノマトペ）がある。

以下、図１０～図１１を参照してデータ生成モデル学習装置１００を説明する。図１０は、データ生成モデル学習装置１００の構成を示すブロック図である。図１１は、データ生成モデル学習装置１００の動作を示すフローチャートである。図１０に示すようにデータ生成モデル学習装置１００は、学習モード制御部１１０と、学習部１２０と、終了条件判定部１３０と、記録部１９０を含む。記録部１９０は、データ生成モデル学習装置１００の処理に必要な情報を適宜記録する構成部である。記録部１９０は、例えば、学習データを学習開始前に記録しておく。

図１１に従いデータ生成モデル学習装置１００の動作について説明する。データ生成モデル学習装置１００は、第１学習データと当該第１学習データの要素である自然言語表現に対する指標と第２学習データとを入力とし、データ生成モデルを出力する。なお、第１学習データの要素である自然言語表現に対する指標については、入力とする代わりに、学習部１２０において、第１学習データの要素である自然言語表現から求めるようにしてもよい。

Ｓ１１０において、学習モード制御部１１０は、第１学習データと、当該第１学習データの要素である自然言語表現に対する指標と、第２学習データとを入力とし、学習部１２０を制御するための制御信号を生成し、出力する。ここで、制御信号は、第１学習と第２学習のいずれかを実行するように学習モードを制御する信号である。制御信号は、例えば、第１学習と第２学習を交互に実行するように学習モードを制御する信号とすることができる。また、制御信号は、例えば、第１学習と第２学習を所定の方法で混在させながら両学習を実行するように学習モードを制御する信号とすることができる。この場合、第１学習の実行回数と第２学習の実行回数は、異なる値となってもよい。

Ｓ１２０において、学習部１２０は、第１学習データと、当該第１学習データの要素である自然言語表現に対する指標と、第２学習データと、Ｓ１１０において出力された制御信号とを入力とし、制御信号が指定する学習が第１学習である場合は、第１学習データと当該第１学習データの要素である自然言語表現に対する指標を用いて、音響信号から音響信号に対応する潜在変数を生成するエンコーダと、潜在変数と自然言語表現に対する指標に関する条件から音響信号に対応する自然言語表現を生成するデコーダとを学習し、制御信号が指定する学習が第２学習である場合は、第２学習データを用いてデコーダを学習し、エンコーダとデコーダの組であるデータ生成モデルを、終了条件判定部１３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部１２０は、実行する学習が第１学習、第２学習のいずれであっても、１エポックを単位として学習を実行する。また、学習部１２０は、誤差関数L_CSCGを用いて誤差逆伝播法によりデータ生成モデルを学習する。誤差関数L_CSCGは、実行する学習が第１学習である場合、λを所定の定数として、次式により定義され、

実行する学習が第２学習である場合、λ’をλ’<1を満たす定数として、次式により定義される。

ただし、自然言語表現に関する誤差L_SCGは、実行する学習が第１学習である場合、第１学習データの要素である音響信号に対するデータ生成モデルの出力である自然言語表現と当該第１学習データの要素である自然言語表現とから計算されるクロスエントロピー、実行する学習が第２学習である場合、第２学習データの要素である指標に対するデコーダの出力である自然言語表現と当該第２学習データの要素である自然言語表現とから計算されるクロスエントロピーとする。

なお、誤差関数L_CSCGは、２つの誤差L_SCGとL_spを用いて定義されるものであればよい。

また、自然言語表現が文である場合、＜技術的背景＞で説明した通り、自然言語表現に対する指標として、文の詳細度を用いることができる。この場合、文の詳細度は、少なくとも所定の単語データベースを用いて定義される文に含まれる単語の出現確率や単語N-gramの出現確率、文に含まれる単語の数、文に含まれる文字の数のうち、少なくとも１つを用いて定義されるものである。例えば、文の詳細度は、I_sをn個の単語の列[w₁, w₂, …, w_n]である文sの詳細度として、次式により定義してもよい。

（ただし、I_{w_t}は単語w_tの出現確率p_{w_t}に基づき定まる単語w_tの情報量である。）

なお、詳細度I_sは、情報量I_{w_t}(1≦t≦n)を用いて定義されるものであればよい。

また、単語データベースは、文に含まれる単語に対して当該単語の出現確率や、文に含まれる単語N-gramに対して当該単語N-gramの出現確率を定義できるものであれば、どのようなものであってもよい。単語データベースとして、例えば、＜技術的背景＞で説明した説明文データベースを用いることができる。

また、デコーダの出力である文sの推定詳細度^I_sを、

（ただし、時刻tにおけるデコーダの出力層のユニットjの値p(w_t,j)は、ユニットjに対応する単語w_t,jの生成確率、I_{w_t,j}は単語w_t,jの生成確率p_{w_t,j}に基づき定まる単語w_t,jの情報量である）とし、文の詳細度に関する誤差L_spは、実行する学習が第１学習である場合、推定詳細度^I_sと第１学習データの要素である文の詳細度との差、実行する学習が第２学習である場合、推定詳細度^I_sと第２学習データの要素である詳細度との差とする。

なお、句に対しても、文と同様、詳細度を定義することができる。

Ｓ１３０において、終了条件判定部１３０は、Ｓ１２０において出力されたデータ生成モデルと終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、データ生成モデルを出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ１１０の処理に戻る。

《データ生成モデル学習装置１５０》
データ生成モデル学習装置１５０は、学習データを用いて、学習対象となるデータ生成モデルを学習する。データ生成モデル学習装置１５０は、第１学習データを用いる第１学習のみを実行する点において、データ生成モデル学習装置１００と異なる。

以下、図１２～図１３を参照してデータ生成モデル学習装置１５０を説明する。図１２は、データ生成モデル学習装置１５０の構成を示すブロック図である。図１３は、データ生成モデル学習装置１５０の動作を示すフローチャートである。図１２に示すようにデータ生成モデル学習装置１５０は、学習部１２０と、終了条件判定部１３０と、記録部１９０を含む。記録部１９０は、データ生成モデル学習装置１５０の処理に必要な情報を適宜記録する構成部である。

図１３に従いデータ生成モデル学習装置１５０の動作について説明する。データ生成モデル学習装置１５０は、第１学習データと当該第１学習データの要素である自然言語表現に対する指標とを入力とし、データ生成モデルを出力する。なお、第１学習データの要素である自然言語表現に対する指標については、入力とする代わりに、学習部１２０において、第１学習データの要素である自然言語表現から求めるようにしてもよい。

Ｓ１２０において、学習部１２０は、第１学習データと、当該第１学習データの要素である自然言語表現に対する指標とを入力とし、第１学習データと当該第１学習データの要素である自然言語表現に対する指標を用いてエンコーダとデコーダを学習し、エンコーダとデコーダの組であるデータ生成モデルを、終了条件判定部１３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部１２０は、例えば、１エポックを単位として学習を実行する。また、学習部１２０は、誤差関数L_CSCGを用いて誤差逆伝播法によりデータ生成モデルを学習する。誤差関数L_SCGは、λを所定の定数として、次式により定義される。

なお、２つの誤差L_SCGとL_spの定義は、データ生成モデル学習装置１００のそれと同一である。また、誤差関数L_CSCGは、２つの誤差L_SCGとL_spを用いて定義されるものであればよい。

Ｓ１３０において、終了条件判定部１３０は、Ｓ１２０において出力されたデータ生成モデルと終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、データ生成モデルを出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ１２０の処理に戻る。

《データ生成装置２００》
データ生成装置２００は、データ生成モデル学習装置１００またはデータ生成モデル学習装置１５０を用いて学習したデータ生成モデルを用いて、音響信号と自然言語表現に対する指標に関する条件から、音響信号に対応する自然言語表現を生成する。ここで、データ生成モデル学習装置１００またはデータ生成モデル学習装置１５０を用いて学習したデータ生成モデルのことを学習済みデータ生成モデルともいう。また、学習済みデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ学習済みエンコーダ、学習済みデコーダともいう。なお、データ生成モデル学習装置１００、データ生成モデル学習装置１５０以外のデータ生成モデル学習装置を用いて学習したデータ生成モデルを用いてもよいのはもちろんである。

以下、図１４～図１５を参照してデータ生成装置２００を説明する。図１４は、データ生成装置２００の構成を示すブロック図である。図１５は、データ生成装置２００の動作を示すフローチャートである。図１４に示すようにデータ生成装置２００は、潜在変数生成部２１０と、データ生成部２２０と、記録部２９０を含む。記録部２９０は、データ生成装置２００の処理に必要な情報を適宜記録する構成部である。記録部２９０は、例えば、学習済みデータ生成モデル（つまり、学習済みエンコーダと学習済みデコーダ）を事前に記録しておく。

図１５に従いデータ生成装置２００の動作について説明する。データ生成装置２００は、音響信号と自然言語表現に対する指標に関する条件を入力とし、自然言語表現を出力する。

Ｓ２１０において、潜在変数生成部２１０は、音響信号を入力とし、音響信号から、学習済みエンコーダを用いて、音響信号に対応する潜在変数を生成し、出力する。

Ｓ２２０において、データ生成部２２０は、Ｓ２１０において出力された潜在変数と自然言語表現に対する指標に関する条件を入力とし、潜在変数と自然言語表現に対する指標に関する条件から、学習済みデコーダを用いて、音響信号に対応する自然言語表現を生成し、出力する。

本発明の実施形態によれば、自然言語表現に対する指標を補助入力とし、音響信号から、当該音響信号に対応する自然言語表現を生成するデータ生成モデルを学習することが可能となる。また、本発明の実施形態によれば、音響信号から、自然言語表現に対する指標を制御して、当該音響信号に対応する自然言語表現を生成することが可能となる。

＜第２実施形態＞
以下、データ生成モデル学習装置１００またはデータ生成モデル学習装置１５０を用いて学習したデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ音響信号エンコーダ、自然言語表現デコーダという。音響信号エンコーダ、自然言語表現デコーダをそれぞれ学習済み音響信号エンコーダ、学習済み自然言語表現デコーダということもある。

ここでは、音響信号エンコーダを用いて構成される音響信号データベースを用いて、入力となる自然言語表現（以下、入力自然言語表現という）から、当該入力自然言語表現に対応する音響信号を検索する音響信号検索装置４００について説明する。図１６は、音響信号検索処理の概要を示す図である。クエリ（問合せ）を自然言語表現、エンコーダを自然言語表現エンコーダとしたものが音響信号検索装置４００であり、クエリを音響信号、エンコーダを音響信号エンコーダとしたものが後述する音響信号検索装置５００である。

最初に、音響信号検索装置４００の構成に必要となる潜在変数生成モデルを学習する潜在変数生成モデル学習装置３００について説明する。

《潜在変数生成モデル学習装置３００》
潜在変数生成モデル学習装置３００は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置１００またはデータ生成モデル学習装置１５０を用いて学習したデータ生成モデルを用いて、音響信号から生成した、当該音響信号に対応する自然言語表現と当該音響信号に対応する潜在変数との組（以下、教師あり学習データという）である。また、潜在変数生成モデルは、自然言語表現から、自然言語表現に対応する潜在変数を生成する自然言語表現エンコーダのことである。なお、自然言語表現エンコーダには、時系列データを処理することができる任意のニューラルネットワークを用いることができる。

以下、図１７～図１８を参照して潜在変数生成モデル学習装置３００を説明する。図１７は、潜在変数生成モデル学習装置３００の構成を示すブロック図である。図１８は、潜在変数生成モデル学習装置３００の動作を示すフローチャートである。図１７に示すように潜在変数生成モデル学習装置３００は、学習部３２０と、終了条件判定部３３０と、記録部３９０を含む。記録部３９０は、潜在変数生成モデル学習装置３００の処理に必要な情報を適宜記録する構成部である。記録部３９０は、例えば、教師あり学習データを学習開始前に記録しておく。

図１８に従い潜在変数生成モデル学習装置３００の動作について説明する。潜在変数生成モデル学習装置３００は、教師あり学習データを入力とし、潜在変数生成モデルを出力する。入力された教師あり学習データは、上述の通り、例えば、記録部３９０に記録しておく。

Ｓ３２０において、学習部３２０は、記録部３９０に記録した教師あり学習データを入力とし、当該教師あり学習データを用いた教師あり学習により、自然言語表現から当該自然言語表現に対応する潜在変数を生成する自然言語表現エンコーダである潜在変数生成モデルを学習し、潜在変数生成モデルを、終了条件判定部３３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部３２０は、例えば、１エポックを単位として学習を実行する。また、学習部３２０は、所定の誤差関数Lを用いて誤差逆伝播法により自然言語表現エンコーダを潜在変数生成モデルとして学習する。

Ｓ３３０において、終了条件判定部３３０は、Ｓ３２０において出力された潜在変数生成モデルと終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、潜在変数生成モデル（つまり、自然言語表現エンコーダ）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ３２０の処理に戻る。

《音響信号検索装置４００》
音響信号検索装置４００は、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、入力自然言語表現から、入力自然言語表現に対応する音響信号を検索する。ここで、潜在変数生成モデル学習装置３００を用いて学習した自然言語表現エンコーダを学習済み自然言語表現エンコーダともいう。なお、潜在変数生成モデル学習装置３００以外の潜在変数生成モデル学習装置を用いて学習した自然言語表現エンコーダを用いてもよいのはもちろんである。

以下、図１９～図２０を参照して音響信号検索装置４００を説明する。図１９は、音響信号検索装置４００の構成を示すブロック図である。図２０は、音響信号検索装置４００の動作を示すフローチャートである。図１９に示すように音響信号検索装置４００は、潜在変数生成部４１０と、検索部４３０と、記録部４９０を含む。記録部４９０は、音響信号検索装置４００の処理に必要な情報を適宜記録する構成部である。記録部４９０は、例えば、音響信号データベース、学習済み自然言語表現エンコーダを事前に記録しておく。

図２０に従い音響信号検索装置４００の動作について説明する。音響信号検索装置４００は、入力自然言語表現を入力とし、入力自然言語表現に対応する音響信号を出力する。ここで、入力自然言語表現として、任意の指標の自然言語表現を用いることができる。

Ｓ４１０において、潜在変数生成部４１０は、入力自然言語表現を入力とし、入力自然言語表現から、学習済み自然言語表現エンコーダを用いて、当該入力自然言語表現に対応する潜在変数を生成し、出力する。

Ｓ４３０において、検索部４３０は、Ｓ４１０において出力された潜在変数を入力とし、音響信号データベースを用いて、潜在変数から、入力自然言語表現に対応する音響信号を検索結果として決定し、出力する。例えば、検索部４３０は、Ｓ４１０において出力された潜在変数との距離が最も小さい音響信号データベースに含まれる潜在変数と組になる音響信号を検索結果として決定することができる。より一般的に、Nを１以上の整数として、検索部４３０は、Ｓ４１０において出力された潜在変数との距離が小さいものからN個の音響信号データベースに含まれる潜在変数と組になる音響信号を検索結果として決定することができる。また、検索部４３０は、Ｓ４１０において出力された潜在変数との距離が所定の閾値以下または所定の閾値より小さい音響信号データベースに含まれる潜在変数と組になる音響信号を検索結果として決定することもできる。

以下、潜在変数の集合を潜在空間という。潜在変数はベクトルとして表現されるため、ベクトル空間である潜在空間で定義される任意の距離を潜在変数間の距離として用いることができる。つまり、検索部４３０は、潜在空間で定義される距離を用いて、検索結果を決定するといえる。

本発明の実施形態によれば、自然言語表現から自然言語表現に対応する潜在変数を生成する自然言語表現エンコーダを学習することが可能となる。また、本発明の実施形態によれば、テキストデータによりタグ付けすることなく、音響信号の特徴を記述した自然言語表現から、当該自然言語表現に対応する音響信号を検索することが可能となる。任意の指標の自然言語表現を入力自然言語表現とすることにより、潜在空間の座標を微調整する形の検索が可能となる。

＜第３実施形態＞
《音響信号検索装置５００》
音響信号検索装置５００は、音響信号データベースを用いて、入力となる音響信号（以下、入力音響信号という）から、入力音響信号に対応する音響信号を検索する。音響信号検索装置５００は、潜在変数生成部４１０の代わりに、潜在変数生成部５１０を含む点において、音響信号検索装置４００と異なる。

以下、図２１～図２２を参照して音響信号検索装置５００を説明する。図２１は、音響信号検索装置５００の構成を示すブロック図である。図２２は、音響信号検索装置５００の動作を示すフローチャートである。図２１に示すように音響信号検索装置５００は、潜在変数生成部５１０と、検索部４３０と、記録部４９０を含む。記録部４９０は、音響信号検索装置５００の処理に必要な情報を適宜記録する構成部である。記録部４９０は、例えば、音響信号データベース、学習済み音響信号エンコーダを事前に記録しておく。

図２２に従い音響信号検索装置５００の動作について説明する。音響信号検索装置５００は、入力音響信号を入力とし、入力音響信号に対応する音響信号を出力する。ここで、入力音響信号として、例えば、擬音語の口まねとして得られる音響信号を用いることができる。

Ｓ５１０において、潜在変数生成部５１０は、入力音響信号を入力とし、入力音響信号から、学習済み音響信号エンコーダを用いて、当該入力音響信号に対応する潜在変数を生成し、出力する。

Ｓ４３０において、検索部４３０は、Ｓ５１０において出力された潜在変数を入力とし、音響信号データベースを用いて、潜在変数から、入力音響信号に対応する音響信号を検索結果として決定し、出力する。

本発明の実施形態によれば、テキストデータによりタグ付けすることなく、擬音語の口まねとして得られる音響信号のように音響信号の特徴をふまえた音響信号から、当該音響信号に対応する音響信号を検索することが可能となる。これにより、テキストデータとして表すことが難しいニュアンスを反映した検索が可能となる。

＜第４実施形態＞
《音響信号検索装置６００》
音響信号検索装置６００は、音響信号データベースを用いて、入力となる自然言語表現（以下、入力自然言語表現という）から、入力自然言語表現に対応する音響信号を検索する。音響信号検索装置６００は、潜在変数生成部４１０の代わりに、第１潜在変数生成部６１０と選択音響信号決定部６４０と第２潜在変数生成部６５０とを含む点において、音響信号検索装置４００と異なる。

以下、図２３～図２４を参照して音響信号検索装置６００を説明する。図２３は、音響信号検索装置６００の構成を示すブロック図である。図２４は、音響信号検索装置６００の動作を示すフローチャートである。図２３に示すように音響信号検索装置６００は、第１潜在変数生成部６１０と、検索部４３０と、選択音響信号決定部６４０と、第２潜在変数生成部６５０と、記録部４９０を含む。記録部４９０は、音響信号検索装置６００の処理に必要な情報を適宜記録する構成部である。記録部４９０は、例えば、音響信号データベース、学習済み自然言語表現エンコーダ、学習済み音響信号エンコーダを事前に記録しておく。

図２４に従い音響信号検索装置６００の動作について説明する。音響信号検索装置６００は、入力自然言語表現を入力とし、ユーザの要求を満たす音響信号を出力する。ここで、入力自然言語表現として、任意の指標の自然言語表現を用いることができる。

Ｓ６１０において、第１潜在変数生成部６１０は、入力自然言語表現を入力とし、入力自然言語表現から、学習済み自然言語表現エンコーダを用いて、当該入力自然言語表現に対応する潜在変数を生成し、出力する。

Ｓ４３０において、検索部４３０は、Ｓ４１０またはＳ６５０において出力された潜在変数を入力とし、音響信号データベースを用いて、潜在変数から、入力自然言語表現に対応する音響信号またはＳ６４０において出力された選択音響信号に対応する音響信号を検索結果として決定し、出力する。ここで、検索部４３０は、検索結果として、２以上の音響信号を決定する。

Ｓ６４０において、選択音響信号決定部６４０は、Ｓ４３０において出力された検索結果を入力とし、検索結果の中にユーザの要求を満たす音響信号がある場合は、当該音響信号を出力し、処理を終了する一方、そうでない場合は、検索結果の１つを選択音響信号として決定し、出力する。検索結果の中にユーザの要求を満たす音響信号があるか否かは、例えば、ユーザに検索結果の音響信号を聴いてもらい、有無を決定すればよい。そして、要求を満たす音響信号がある場合は、その音響信号をユーザに選択してもらい、当該音響信号を出力し、処理を終了する一方、要求を満たす音響信号がない場合は、最も好ましい音響信号をユーザに選択してもらい、当該選択された音響信号を選択音響信号として決定し、出力するようにすればよい。

以下、図２５～図２６を参照して、このような音響信号の選択を実現する選択音響信号決定部６４０の例について説明する。図２５は、選択音響信号決定部６４０の構成を示すブロック図である。図２６は、選択音響信号決定部６４０の動作を示すフローチャートである。図２５に示すように選択音響信号決定部６４０は、提示部６４１と、入力部６４３を含む。

図２６に従い選択音響信号決定部６４０の動作について説明する。Ｓ６４１において、提示部６４１は、Ｓ４３０において出力された検索結果である２以上の音響信号をユーザに対して提示する。ユーザは、Ｓ６４１において提示された検索結果を確認する。Ｓ６４３において、入力部６４３は、ユーザからの入力を受け付け、当該入力に対応する音響信号を出力する。ユーザからの入力には、ユーザの要求を満たす音響信号があるか否かという情報がある。また、ユーザの要求を満たす音響信号がある場合におけるユーザからの入力には、検索結果のうちどの音響信号が該当するものであるかという情報や、要求を満たすK個（Kは所定の定数）の音響信号それぞれが当該要求を満たす程度を示す値（例えば、要求を満たす３つの音響信号それぞれが要求を満たす度合いは３：２：１である等の重み）の情報や、要求を満たすK個（Kは所定の定数）の音響信号に対する優先順位の情報などがある。また、ユーザの要求を満たす音響信号がない場合におけるユーザからの入力には、検索結果のうちどの音響信号が最も好ましい音響信号であるかという情報や、検索結果のうちどの音響信号が候補として除外したい音響信号であるかという情報などがある。

Ｓ６５０において、第２潜在変数生成部６５０は、Ｓ６４０において出力された選択音響信号を入力とし、選択音響信号から、学習済み音響信号エンコーダを用いて、当該選択音響信号に対応する潜在変数を生成、出力し、Ｓ４３０の処理に戻る。

本発明の実施形態によれば、テキストデータによりタグ付けすることなく、音響信号の特徴を記述した自然言語表現から、当該自然言語表現に対応する音響信号を検索することが可能となる。ユーザからのフィードバックを得ながら再検索することにより、より好ましい検索結果を得ることができる。

＜第５実施形態＞
以下、ドメインとはある種類のデータの集合であるとする。ドメインの例として、例えば、第１実施形態で用いた音響信号の集合である音響信号ドメイン、自然言語表現の集合である自然言語表現ドメインなどがある。また、ドメインのデータの例として、＜技術的背景＞で説明したように、味覚センサ、嗅覚センサ、触覚センサ、カメラなどを用いて得られる各種信号がある。これらの信号は人間の五感に関わる信号であり、以下、音響信号も含め、感覚情報に基づく信号ということにする。

《データ生成モデル学習装置１１００》
データ生成モデル学習装置１１００は、学習データを用いて、学習対象となるデータ生成モデルを学習する。ここで、学習データには、第１ドメインのデータと当該第１ドメインのデータに対応する第２ドメインのデータの組である第１学習データと第２ドメインのデータに対する指標と当該指標に対応する第２ドメインのデータの組である第２学習データがある。また、データ生成モデルとは、第１ドメインのデータと第２ドメインのデータに対する指標に関する条件を入力とし、当該第１ドメインのデータに対応する第２ドメインのデータを生成し、出力する関数のことであり、第１ドメインのデータから第１ドメインのデータに対応する潜在変数を生成するエンコーダと、潜在変数と第２ドメインのデータに対する指標に関する条件から第１ドメインのデータに対応する第２ドメインのデータを生成するデコーダとの組として構成される。第２ドメインのデータに対する指標に関する条件とは、生成される第２ドメインのデータに要求される指標のことであり、要求される指標は一つの数値で指定してもよいし、範囲をもって指定してもよい。なお、エンコーダ、デコーダには、第１ドメインのデータや第２ドメインのデータを処理することができる任意のニューラルネットワークを用いることができる。

以下、図２７～図２８を参照してデータ生成モデル学習装置１１００を説明する。図２７は、データ生成モデル学習装置１１００の構成を示すブロック図である。図２８は、データ生成モデル学習装置１１００の動作を示すフローチャートである。図２７に示すようにデータ生成モデル学習装置１１００は、学習モード制御部１１１０と、学習部１１２０と、終了条件判定部１１３０と、記録部１１９０を含む。記録部１１９０は、データ生成モデル学習装置１１００の処理に必要な情報を適宜記録する構成部である。記録部１１９０は、例えば、学習データを学習開始前に記録しておく。

図２８に従いデータ生成モデル学習装置１１００の動作について説明する。データ生成モデル学習装置１１００は、第１学習データと当該第１学習データの要素である第２ドメインのデータに対する指標と第２学習データとを入力とし、データ生成モデルを出力する。なお、第１学習データの要素である第２ドメインのデータに対する指標については、入力とする代わりに、学習部１１２０において、第１学習データの要素である第２ドメインのデータから求めるようにしてもよい。

Ｓ１１１０において、学習モード制御部１１１０は、第１学習データと、当該第１学習データの要素である第２ドメインのデータに対する指標と、第２学習データとを入力とし、学習部１１２０を制御するための制御信号を生成し、出力する。ここで、制御信号は、第１学習と第２学習のいずれかを実行するように学習モードを制御する信号である。制御信号は、例えば、第１学習と第２学習を交互に実行するように学習モードを制御する信号とすることができる。また、制御信号は、例えば、第１学習と第２学習を所定の方法で混在させながら両学習を実行するように学習モードを制御する信号とすることができる。この場合、第１学習の実行回数と第２学習の実行回数は、異なる値となってもよい。

Ｓ１１２０において、学習部１１２０は、第１学習データと、当該第１学習データの要素である第２ドメインのデータに対する指標と、第２学習データと、Ｓ１１１０において出力された制御信号とを入力とし、制御信号が指定する学習が第１学習である場合は、第１学習データと当該第１学習データの要素である第２ドメインのデータに対する指標を用いて、第１ドメインのデータから前記第１ドメインのデータに対応する潜在変数を生成するエンコーダと、前記潜在変数と第２ドメインのデータに対する指標に関する条件から前記第１ドメインのデータに対応する第２ドメインのデータを生成するデコーダとを学習し、制御信号が指定する学習が第２学習である場合は、第２学習データを用いてデコーダを学習し、エンコーダとデコーダの組であるデータ生成モデルを、終了条件判定部１１３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部３２０は、実行する学習が第１学習、第２学習のいずれであっても、１エポックを単位として学習を実行する。また、学習部１１２０は、所定の誤差関数Lを用いて誤差逆伝播法によりデータ生成モデルを学習する。誤差関数Lは、実行する学習が第１学習である場合、λを所定の定数として、次式により定義され、

ただし、第２ドメインのデータに関する誤差L₁は、実行する学習が第１学習である場合、第１学習データの要素である第１ドメインのデータに対するデータ生成モデルの出力である第２ドメインのデータと当該第１学習データの要素である第２ドメインのデータとから計算されるクロスエントロピー、実行する学習が第２学習である場合、第２学習データの要素である指標に対するデコーダの出力である第２ドメインのデータと当該第２学習データの要素である第２ドメインのデータとから計算されるクロスエントロピーとする。

なお、誤差関数Lは、２つの誤差L₁とL₂を用いて定義されるものであればよい。

また、第２学習データの要素である第２ドメインのデータは、第２学習データの要素である指標と近い（つまり、当該指標との差が所定の閾値より小さいあるいは以下である）指標を持つ第２ドメインのデータである。

また、デコーダの出力である第２ドメインのデータsの推定指標^I_sを、

（ただし、時刻tにおけるデコーダの出力層のユニットjの値p(w_t,j)は、ユニットjに対応する第２ドメインのデータw_t,jの生成確率、I_{w_t,j}は第２ドメインのデータw_t,jの生成確率p_{w_t,j}に基づき定まる第２ドメインのデータw_t,jの情報量である）とし、第２ドメインのデータの指標に関する誤差L₂は、実行する学習が第１学習である場合、推定指標^I_sと第１学習データの要素である第２ドメインのデータの指標との差、実行する学習が第２学習である場合、推定指標^I_sと第２学習データの要素である指標との差とする。

Ｓ１１３０において、終了条件判定部１１３０は、Ｓ１１２０において出力されたデータ生成モデルと終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、データ生成モデルを出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ１１１０の処理に戻る。

《データ生成モデル学習装置１１５０》
データ生成モデル学習装置１１５０は、学習データを用いて、学習対象となるデータ生成モデルを学習する。データ生成モデル学習装置１１５０は、第１学習データを用いる第１学習のみを実行する点において、データ生成モデル学習装置１１００と異なる。

以下、図２９～図３０を参照してデータ生成モデル学習装置１１５０を説明する。図２９は、データ生成モデル学習装置１１５０の構成を示すブロック図である。図３０は、データ生成モデル学習装置１１５０の動作を示すフローチャートである。図２９に示すようにデータ生成モデル学習装置１１５０は、学習部１１２０と、終了条件判定部１１３０と、記録部１１９０を含む。記録部１１９０は、データ生成モデル学習装置１１５０の処理に必要な情報を適宜記録する構成部である。

図３０に従いデータ生成モデル学習装置１１５０の動作について説明する。データ生成モデル学習装置１１５０は、第１学習データと当該第１学習データの要素である第２ドメインのデータに対する指標とを入力とし、データ生成モデルを出力する。なお、第１学習データの要素である第２ドメインのデータに対する指標については、入力とする代わりに、学習部１１２０において、第１学習データの要素である第２ドメインのデータから求めるようにしてもよい。

Ｓ１１２０において、学習部１１２０は、第１学習データと、当該第１学習データの要素である第２ドメインのデータに対する指標とを入力とし、第１学習データと当該第１学習データの要素である第２ドメインのデータに対する指標を用いて、エンコーダとデコーダを学習し、エンコーダとデコーダの組であるデータ生成モデルを、終了条件判定部１１３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部１１２０は、例えば、１エポックを単位として学習を実行する。また、学習部１１２０は、誤差関数Lを用いて誤差逆伝播法によりデータ生成モデルを学習する。誤差関数Lは、λを所定の定数として、次式により定義される。

なお、２つの誤差L₁とL₂の定義は、データ生成モデル学習装置１１００のそれと同一である。また、誤差関数Lは、２つの誤差L₁とL₂を用いて定義されるものであればよい。

Ｓ１１３０において、終了条件判定部１１３０は、Ｓ１１２０において出力されたデータ生成モデルと終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、データ生成モデルを出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ１１２０の処理に戻る。

《データ生成装置１２００》
データ生成装置１２００は、データ生成モデル学習装置１１００またはデータ生成モデル学習装置１１５０を用いて学習したデータ生成モデルを用いて、第１ドメインのデータと第２ドメインのデータに対する指標に関する条件から、第１ドメインのデータに対応する第２ドメインのデータを生成する。ここで、データ生成モデル学習装置１１００またはデータ生成モデル学習装置１１５０を用いて学習したデータ生成モデルのことを学習済みデータ生成モデルともいう。また、学習済みデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ学習済みエンコーダ、学習済みデコーダともいう。なお、データ生成モデル学習装置１１００、データ生成モデル学習装置１１５０以外のデータ生成モデル学習装置を用いて学習したデータ生成モデルを用いてもよいのはもちろんである。

以下、図３１～図３２を参照してデータ生成装置１２００を説明する。図３１は、データ生成装置１２００の構成を示すブロック図である。図３２は、データ生成装置１２００の動作を示すフローチャートである。図３１に示すようにデータ生成装置１２００は、潜在変数生成部１２１０と、第２ドメインデータ生成部１２２０と、記録部１２９０を含む。記録部１２９０は、データ生成装置１２００の処理に必要な情報を適宜記録する構成部である。記録部１２９０は、例えば、学習済みデータ生成モデル（つまり、学習済みエンコーダと学習済みデコーダ）を事前に記録しておく。

図３２に従いデータ生成装置１２００の動作について説明する。データ生成装置１２００は、第１ドメインのデータと第２ドメインのデータに対する指標に関する条件を入力とし、第２ドメインのデータを出力する。

Ｓ１２１０において、潜在変数生成部１２１０は、第１ドメインのデータを入力とし、第１ドメインのデータから、学習済みエンコーダを用いて、第１ドメインのデータに対応する潜在変数を生成し、出力する。

Ｓ１２２０において、第２ドメインデータ生成部１２２０は、Ｓ１２１０において出力された潜在変数と第２ドメインのデータに対する指標に関する条件を入力とし、潜在変数と第２ドメインのデータに対する指標に関する条件から、学習済みデコーダを用いて、第１ドメインのデータに対応する第２ドメインのデータを生成し、出力する。

（具体例）
第１ドメインのデータを感覚情報に基づく信号、第２ドメインのデータを文または句として、以下、具体例について説明する。

（１）味覚
この場合、味覚センサによる信号から、例えば、味にまつわる産地の説明文が得られる。味にまつわる産地の説明文とは、例えば、“２０１５年甲州産のワイン”のような説明文である。

（２）嗅覚
この場合、嗅覚センサによる信号から、においの説明文が得られる。

（３）触覚
この場合、触覚センサや硬度センサによる信号から、例えば、硬さや風合いの説明文が得られる。

（４）視覚
この場合、カメラなどの画像センサによる信号から、例えば、動画のキャプションや画像の被写体の説明文が得られる。

本発明の実施形態によれば、第２ドメインのデータに対する指標を補助入力とし、第１ドメインのデータから、当該第１ドメインのデータに対応する第２ドメインのデータを生成するデータ生成モデルを学習することが可能となる。また、本発明の実施形態によれば、第１ドメインのデータから、所定の指標を制御して、当該第１ドメインのデータに対応する第２ドメインのデータを生成することが可能となる。

＜第６実施形態＞
以下、データ生成モデル学習装置１１００またはデータ生成モデル学習装置１１５０を用いて学習したデータ生成モデルを構成するエンコーダ、デコーダをそれぞれ第１ドメインエンコーダ、第２ドメインデコーダという。第１ドメインエンコーダ、第２ドメインデコーダをそれぞれ学習済み第１ドメインエンコーダ、学習済み第２ドメインデコーダということもある。

ここでは、第１ドメインエンコーダを用いて構成される第１ドメインデータベースを用いて、入力となる第２ドメインのデータ（以下、入力第２ドメインデータという）から、当該入力第２ドメインデータに対応する第１ドメインのデータを検索するデータ検索装置１４００について説明する。

最初に、データ検索装置１４００の構成に必要となる潜在変数生成モデルを学習する潜在変数生成モデル学習装置１３００について説明する。

《潜在変数生成モデル学習装置１３００》
潜在変数生成モデル学習装置１３００は、学習データを用いて、学習対象となる潜在変数生成モデルを学習する。ここで、学習データは、データ生成モデル学習装置１１００またはデータ生成モデル学習装置１１５０を用いて学習したデータ生成モデルを用いて、第１ドメインのデータから生成した、当該データに対応する第２ドメインのデータと当該データに対応する潜在変数との組（以下、教師あり学習データという）である。また、潜在変数生成モデルは、第２ドメインのデータから、第２ドメインのデータに対応する潜在変数を生成する第２ドメインエンコーダのことである。なお、第２ドメインエンコーダには、任意のニューラルネットワークを用いることができる。

以下、図３３～図３４を参照して潜在変数生成モデル学習装置１３００を説明する。図３３は、潜在変数生成モデル学習装置１３００の構成を示すブロック図である。図３４は、潜在変数生成モデル学習装置１３００の動作を示すフローチャートである。図３３に示すように潜在変数生成モデル学習装置１３００は、学習部１３２０と、終了条件判定部１３３０と、記録部１３９０を含む。記録部１３９０は、潜在変数生成モデル学習装置１３００の処理に必要な情報を適宜記録する構成部である。記録部１３９０は、例えば、教師あり学習データを学習開始前に記録しておく。

図３４に従い潜在変数生成モデル学習装置１３００の動作について説明する。潜在変数生成モデル学習装置１３００は、教師あり学習データを入力とし、潜在変数生成モデルを出力する。入力された教師あり学習データは、上述の通り、例えば、記録部１３９０に記録しておく。

Ｓ１３２０において、学習部１３２０は、記録部１３９０に記録した教師あり学習データを入力とし、当該教師あり学習データを用いた教師あり学習により、第２ドメインのデータから当該データに対応する潜在変数を生成する第２ドメインエンコーダである潜在変数生成モデルを学習し、潜在変数生成モデルを、終了条件判定部１３３０が終了条件を判定するために必要な情報（例えば、学習を行った回数）とともに出力する。学習部１３２０は、例えば、１エポックを単位として学習を実行する。また、学習部１３２０は、所定の誤差関数Lを用いて誤差逆伝播法により第２ドメインエンコーダを潜在変数生成モデルとして学習する。

Ｓ１３３０において、終了条件判定部１３３０は、Ｓ１３２０において出力された潜在変数生成モデルと終了条件を判定するために必要な情報とを入力とし、学習の終了に関する条件である終了条件が満たされている（例えば、学習を行った回数が所定の繰り返し回数に達している）か否かを判定し、終了条件が満たされている場合は、潜在変数生成モデル（つまり、第２ドメインエンコーダ）を出力して、処理を終了する一方、終了条件が満たされていない場合は、Ｓ１３２０の処理に戻る。

《データ検索装置１４００》
データ検索装置１４００は、第１ドメインエンコーダを用いて第１ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第１ドメインデータベースを用いて、入力第２ドメインデータから、入力第２ドメインデータに対応する第１ドメインのデータを検索する。ここで、潜在変数生成モデル学習装置１３００を用いて学習した第２ドメインエンコーダを学習済み第２ドメインエンコーダともいう。なお、潜在変数生成モデル学習装置１３００以外の潜在変数生成モデル学習装置を用いて学習した第２ドメインエンコーダを用いてもよいのはもちろんである。

以下、図３５～図３６を参照してデータ検索装置１４００を説明する。図３５は、データ検索装置１４００の構成を示すブロック図である。図３６は、データ検索装置１４００の動作を示すフローチャートである。図３５に示すようにデータ検索装置１４００は、潜在変数生成部１４１０と、検索部１４３０と、記録部１４９０を含む。記録部１４９０は、データ検索装置１４００の処理に必要な情報を適宜記録する構成部である。記録部１４９０は、例えば、第１ドメインデータベース、学習済み第２ドメインエンコーダを事前に記録しておく。

図３６に従いデータ検索装置１４００の動作について説明する。データ検索装置１４００は、入力第２ドメインデータを入力とし、入力第２ドメインデータに対応する第１ドメインのデータを出力する。ここで、入力第２ドメインデータとして、任意の指標の第２ドメインのデータを用いることができる。

Ｓ１４１０において、潜在変数生成部１４１０は、入力第２ドメインデータを入力とし、入力第２ドメインデータから、学習済み第２ドメインエンコーダを用いて、当該入力第２ドメインデータに対応する潜在変数を生成し、出力する。

Ｓ１４３０において、検索部１４３０は、Ｓ１４１０において出力された潜在変数を入力とし、第１ドメインデータベースを用いて、潜在変数から、入力第２ドメインデータに対応する第１ドメインのデータを検索結果として決定し、出力する。例えば、検索部１４３０は、Ｓ１４１０において出力された潜在変数との距離が最も小さい第１ドメインデータベースに含まれる潜在変数と組になる第１ドメインのデータを検索結果として決定することができる。より一般的に、Nを１以上の整数として、検索部１４３０は、Ｓ１４１０において出力された潜在変数との距離が小さいものからN個の第１ドメインデータベースに含まれる潜在変数と組になる第１ドメインのデータを検索結果として決定することができる。また、検索部１４３０は、Ｓ１４１０において出力された潜在変数との距離が所定の閾値以下または所定の閾値より小さい第１ドメインデータベースに含まれる潜在変数と組になる第１ドメインのデータを検索結果として決定することもできる。

以下、潜在変数の集合を潜在空間という。潜在変数はベクトルとして表現されるため、ベクトル空間である潜在空間で定義される任意の距離を潜在変数間の距離として用いることができる。つまり、検索部１４３０は、潜在空間で定義される距離を用いて、検索結果を決定するといえる。

本発明の実施形態によれば、第２ドメインのデータから第２ドメインのデータに対応する潜在変数を生成する第２ドメインエンコーダを学習することが可能となる。また、本発明の実施形態によれば、潜在変数間の距離を用いて、第１ドメインのデータを検索することが可能となる。

＜第７実施形態＞
《データ検索装置１５００》
データ検索装置１５００は、第１ドメインデータベースを用いて、入力となる第１ドメインのデータ（以下、入力第１ドメインデータという）から、入力第１ドメインデータに対応する第１ドメインのデータを検索する。データ検索装置１５００は、潜在変数生成部１４１０の代わりに、潜在変数生成部１５１０を含む点において、データ検索装置１４００と異なる。

以下、図３７～図３８を参照してデータ検索装置１５００を説明する。図３７は、データ検索装置１５００の構成を示すブロック図である。図３８は、データ検索装置１５００の動作を示すフローチャートである。図３７に示すようにデータ検索装置１５００は、潜在変数生成部１５１０と、検索部１４３０と、記録部１４９０を含む。記録部１４９０は、データ検索装置１５００の処理に必要な情報を適宜記録する構成部である。記録部１４９０は、例えば、第１ドメインデータベース、学習済み第１ドメインエンコーダを事前に記録しておく。

図３８に従いデータ検索装置１５００の動作について説明する。データ検索装置１５００は、入力第１ドメインデータを入力とし、入力第１ドメインデータに対応する第１ドメインのデータを出力する。

Ｓ１５１０において、潜在変数生成部１５１０は、入力第１ドメインデータを入力とし、入力第１ドメインデータから、学習済み第１ドメインエンコーダを用いて、当該入力第１ドメインデータに対応する潜在変数を生成し、出力する。

Ｓ１４３０において、検索部１４３０は、Ｓ１５１０において出力された潜在変数を入力とし、第１ドメインデータベースを用いて、潜在変数から、入力第１ドメインデータに対応する第１ドメインのデータを検索結果として決定し、出力する。

本発明の実施形態によれば、潜在変数間の距離を用いて、第１ドメインのデータを検索することが可能となる。

＜第８実施形態＞
《データ検索装置１６００》
データ検索装置１６００は、第１ドメインデータベースを用いて、入力となる第２ドメインのデータ（以下、入力第２ドメインデータという）から、入力第２ドメインデータに対応する第１ドメインのデータを検索する。データ検索装置１６００は、潜在変数生成部１４１０の代わりに、第１潜在変数生成部１６１０と選択データ決定部１６４０と第２潜在変数生成部１６５０とを含む点において、データ検索装置１４００と異なる。

以下、図３９～図４０を参照してデータ検索装置１６００を説明する。図３９は、データ検索装置１６００の構成を示すブロック図である。図４０は、データ検索装置１６００の動作を示すフローチャートである。図３９に示すようにデータ検索装置１６００は、第１潜在変数生成部１６１０と、検索部１４３０と、選択データ決定部１６４０と、第２潜在変数生成部１６５０と、記録部１４９０を含む。記録部１４９０は、データ検索装置１６００の処理に必要な情報を適宜記録する構成部である。記録部１４９０は、例えば、第１ドメインデータベース、学習済み第２ドメインエンコーダ、学習済み第１ドメインエンコーダを事前に記録しておく。

図４０に従いデータ検索装置１６００の動作について説明する。データ検索装置１６００は、入力第２ドメインデータを入力とし、ユーザの要求を満たす第１ドメインのデータを出力する。ここで、入力第２ドメインデータとして、任意の指標の第２ドメインのデータを用いることができる。

Ｓ１６１０において、第１潜在変数生成部１６１０は、入力第２ドメインデータを入力とし、入力第２ドメインデータから、学習済み第２ドメインエンコーダを用いて、当該入力第２ドメインデータに対応する潜在変数を生成し、出力する。

Ｓ１４３０において、検索部１４３０は、Ｓ１４１０またはＳ１６５０において出力された潜在変数を入力とし、第１ドメインデータベースを用いて、潜在変数から、入力第２ドメインデータに対応する第１ドメインのデータまたはＳ１６４０において出力された選択データに対応する第１ドメインのデータを検索結果として決定し、出力する。ここで、検索部１４３０は、検索結果として、２以上の第１ドメインのデータを決定する。

Ｓ１６４０において、選択データ決定部１６４０は、Ｓ１４３０において出力された検索結果を入力とし、検索結果の中にユーザの要求を満たす第１ドメインのデータがある場合は、当該データを出力し、処理を終了する一方、そうでない場合は、検索結果の１つを選択データとして決定し、出力する。検索結果の中にユーザの要求を満たすデータがあるか否かは、例えば、ユーザに検索結果のデータを確認してもらい、有無を決定すればよい。そして、要求を満たすデータがある場合は、そのデータをユーザに選択してもらい、当該データを出力し、処理を終了する一方、要求を満たすデータがない場合は、最も好ましいデータをユーザに選択してもらい、当該選択されたデータを選択データとして決定し、出力するようにすればよい。

Ｓ１６５０において、第２潜在変数生成部１６５０は、Ｓ１６４０において出力された選択データを入力とし、選択データから、学習済み第１ドメインエンコーダを用いて、当該選択データに対応する潜在変数を生成、出力し、Ｓ１４３０の処理に戻る。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成部）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
入力となる自然言語表現（以下、入力自然言語表現という）から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する潜在変数生成部と、
前記音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索部と、
を含む音響信号検索装置であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索装置。
請求項１に記載の音響信号検索装置であって、
前記入力自然言語表現は、擬音語以外の自然言語表現である
ことを特徴とする音響信号検索装置。
音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
入力となる音響信号（以下、入力音響信号という）から、前記音響信号エンコーダを用いて、前記入力音響信号に対応する潜在変数を生成する潜在変数生成部と、
前記音響信号データベースを用いて、前記入力音響信号に対応する潜在変数から、前記入力音響信号に対応する音響信号を検索結果として決定する検索部と、
を含む音響信号検索装置であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索装置。
音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを記録する記録部と、
入力となる自然言語表現（以下、入力自然言語表現という）から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する第１潜在変数生成部と、
前記音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数または選択音響信号に対応する潜在変数から、前記入力自然言語表現に対応する音響信号または前記選択音響信号に対応する音響信号を検索結果として決定する検索部と、
前記検索結果の中にユーザの要求を満たす音響信号がある場合は、当該音響信号を出力し、そうでない場合は、前記検索結果の１つを前記選択音響信号として決定する選択音響信号決定部と、
を含む音響信号検索装置であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索装置。
請求項１ないし４のいずれか１項に記載の音響信号検索装置であって、
前記音響信号エンコーダは、データ生成モデル学習装置が、音響信号と当該音響信号に対応する自然言語表現の組である第１学習データと当該第１学習データの要素である自然言語表現に対する指標とを用いて、学習したデータ生成モデルを構成するエンコーダである
ことを特徴とする音響信号検索装置。
請求項１ないし４のいずれか１項に記載の音響信号検索装置であって、
前記検索部は、潜在空間で定義される距離を用いて、前記検索結果を決定する
ことを特徴とする音響信号検索装置。
音響信号検索装置が、入力となる自然言語表現（以下、入力自然言語表現という）から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する潜在変数生成ステップと、
前記音響信号検索装置が、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数から、前記入力自然言語表現に対応する音響信号を検索結果として決定する検索ステップと、
を含む音響信号検索方法であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索方法。
音響信号検索装置が、入力となる音響信号（以下、入力音響信号という）から、音響信号エンコーダを用いて、前記入力音響信号に対応する潜在変数を生成する潜在変数生成ステップと、
前記音響信号検索装置が、前記音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、前記入力音響信号に対応する潜在変数から、前記入力音響信号に対応する音響信号を検索結果として決定する検索ステップと、
を含む音響信号検索方法であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索方法。
音響信号検索装置が、入力となる自然言語表現（以下、入力自然言語表現という）から、自然言語表現エンコーダを用いて、前記入力自然言語表現に対応する潜在変数を生成する第１潜在変数生成ステップと、
前記音響信号検索装置が、音響信号エンコーダを用いて音響信号から生成した、当該音響信号に対応する潜在変数と、当該音響信号とを含むレコードから構成される音響信号データベースを用いて、前記入力自然言語表現に対応する潜在変数または選択音響信号に対応する潜在変数から、前記入力自然言語表現に対応する音響信号または前記選択音響信号に対応する音響信号を検索結果として決定する検索ステップと、
前記音響信号検索装置が、前記検索結果の中にユーザの要求を満たす音響信号がある場合は、当該音響信号を出力し、そうでない場合は、前記検索結果の１つを前記選択音響信号として決定する選択音響信号決定ステップと、
を含む音響信号検索方法であって、
前記音響信号エンコーダを用いて音響信号から生成される潜在変数は、自然言語表現デコーダを用いて、当該潜在変数と自然言語表現に対する指標に関する条件から、当該音響信号に対応する自然言語表現を生成することができるものである
音響信号検索方法。
第１ドメインエンコーダを用いて第１ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第１ドメインデータベースを記録する記録部と、
入力となる第２ドメインのデータ（以下、入力第２ドメインデータという）から、第２ドメインエンコーダを用いて、前記入力第２ドメインデータに対応する潜在変数を生成する潜在変数生成部と、
前記第１ドメインデータベースを用いて、前記入力第２ドメインデータに対応する潜在変数から、前記入力第２ドメインデータに対応する第１ドメインのデータを検索結果として決定する検索部と、
を含むデータ検索装置であって、
前記第１ドメインエンコーダを用いて第１ドメインのデータから生成される潜在変数は、第２ドメインデコーダを用いて、当該潜在変数と第２ドメインのデータに対する指標に関する条件から、当該第１ドメインのデータに対応する第２ドメインのデータを生成することができるものである
データ検索装置。
第１ドメインエンコーダを用いて第１ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第１ドメインデータベースを記録する記録部と、
入力となる第１ドメインのデータ（以下、入力第１ドメインデータという）から、前記第１ドメインエンコーダを用いて、前記入力第１ドメインデータに対応する潜在変数を生成する潜在変数生成部と、
前記第１ドメインデータベースを用いて、前記入力第１ドメインデータに対応する潜在変数から、前記入力第１ドメインデータに対応する第１ドメインのデータを検索結果として決定する検索部と、
を含むデータ検索装置であって、
前記第１ドメインエンコーダを用いて第１ドメインのデータから生成される潜在変数は、第２ドメインデコーダを用いて、当該潜在変数と第２ドメインのデータに対する指標に関する条件から、当該第１ドメインのデータに対応する第２ドメインのデータを生成することができるものである
データ検索装置。
第１ドメインエンコーダを用いて第１ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第１ドメインデータベースを記録する記録部と、
入力となる第２ドメインのデータ（以下、入力第２ドメインデータという）から、第２ドメインエンコーダを用いて、前記入力第２ドメインデータに対応する潜在変数を生成する第１潜在変数生成部と、
前記第１ドメインデータベースを用いて、前記入力第２ドメインデータに対応する潜在変数または選択データに対応する潜在変数から、前記入力第２ドメインデータに対応する第１ドメインのデータまたは前記選択データに対応する第１ドメインのデータを検索結果として決定する検索部と、
前記検索結果の中にユーザの要求を満たす第１ドメインのデータがある場合は、当該データを出力し、そうでない場合は、前記検索結果の１つを前記選択データとして決定する選択データ決定部と、
を含むデータ検索装置であって、
前記第１ドメインエンコーダを用いて第１ドメインのデータから生成される潜在変数は、第２ドメインデコーダを用いて、当該潜在変数と第２ドメインのデータに対する指標に関する条件から、当該第１ドメインのデータに対応する第２ドメインのデータを生成することができるものである
データ検索装置。
データ検索装置が、入力となる第２ドメインのデータ（以下、入力第２ドメインデータという）から、第２ドメインエンコーダを用いて、前記入力第２ドメインデータに対応する潜在変数を生成する潜在変数生成ステップと、
前記データ検索装置が、第１ドメインエンコーダを用いて第１ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第１ドメインデータベースを用いて、前記入力第２ドメインデータに対応する潜在変数から、前記入力第２ドメインデータに対応する第１ドメインのデータを検索結果として決定する検索ステップと、
を含むデータ検索方法であって、
前記第１ドメインエンコーダを用いて第１ドメインのデータから生成される潜在変数は、第２ドメインデコーダを用いて、当該潜在変数と第２ドメインのデータに対する指標に関する条件から、当該第１ドメインのデータに対応する第２ドメインのデータを生成することができるものである
データ検索方法。
データ検索装置が、入力となる第１ドメインのデータ（以下、入力第１ドメインデータという）から、第１ドメインエンコーダを用いて、前記入力第１ドメインデータに対応する潜在変数を生成する潜在変数生成ステップと、
前記データ検索装置が、前記第１ドメインエンコーダを用いて第１ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第１ドメインデータベースを用いて、前記入力第１ドメインデータに対応する潜在変数から、前記入力第１ドメインデータに対応する第１ドメインのデータを検索結果として決定する検索ステップと、
を含むデータ検索方法であって、
前記第１ドメインエンコーダを用いて第１ドメインのデータから生成される潜在変数は、第２ドメインデコーダを用いて、当該潜在変数と第２ドメインのデータに対する指標に関する条件から、当該第１ドメインのデータに対応する第２ドメインのデータを生成することができるものである
データ検索方法。
データ検索装置が、入力となる第２ドメインのデータ（以下、入力第２ドメインデータという）から、第２ドメインエンコーダを用いて、前記入力第２ドメインデータに対応する潜在変数を生成する第１潜在変数生成ステップと、
前記データ検索装置が、第１ドメインエンコーダを用いて第１ドメインのデータから生成した、当該データに対応する潜在変数と、当該データとを含むレコードから構成される第１ドメインデータベースを用いて、前記入力第２ドメインデータに対応する潜在変数または選択データに対応する潜在変数から、前記入力第２ドメインデータに対応する第１ドメインのデータまたは前記選択データに対応する第１ドメインのデータを検索結果として決定する検索ステップと、
前記データ検索装置が、前記検索結果の中にユーザの要求を満たす第１ドメインのデータがある場合は、当該データを出力し、そうでない場合は、前記検索結果の１つを前記選択データとして決定する選択データ決定ステップと、
を含むデータ検索方法であって、
前記第１ドメインエンコーダを用いて第１ドメインのデータから生成される潜在変数は、第２ドメインデコーダを用いて、当該潜在変数と第２ドメインのデータに対する指標に関する条件から、当該第１ドメインのデータに対応する第２ドメインのデータを生成することができるものである
データ検索方法。
請求項１ないし６のいずれか１項に記載の音響信号検索装置、請求項１０ないし１２のいずれか１項に記載のデータ検索装置のいずれかとしてコンピュータを機能させるためのプログラム。