JP7408518B2 - 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム - Google Patents
情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム Download PDFInfo
- Publication number
- JP7408518B2 JP7408518B2 JP2020155830A JP2020155830A JP7408518B2 JP 7408518 B2 JP7408518 B2 JP 7408518B2 JP 2020155830 A JP2020155830 A JP 2020155830A JP 2020155830 A JP2020155830 A JP 2020155830A JP 7408518 B2 JP7408518 B2 JP 7408518B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- learning
- output
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 146
- 238000000034 method Methods 0.000 title claims description 43
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims description 57
- 238000010801 machine learning Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 18
- 238000013500 data storage Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 101001111655 Homo sapiens Retinol dehydrogenase 11 Proteins 0.000 description 2
- 102100023916 Retinol dehydrogenase 11 Human genes 0.000 description 2
- 101100366082 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SNF7 gene Proteins 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 101150047375 DID2 gene Proteins 0.000 description 1
- 101100317166 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) VPS24 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
近年、音声認識等に利用されるモデル(「音声認識モデル」ともいう)に、End-to-Endモデル(「E2Eモデル」ともいう)が用いられている。E2Eモデルは、例えば1つのニューラルネットワークで構成されるモデルである。E2Eモデルは、ユーザが利用するデバイス(端末装置10等)で完結する音声認識の処理に適している。音声データを入力してその音声データに対応する文字データを出力させる音声文字変換等の音声認識モデルにおいて、入力された音声データに対応する認識結果が出力される。このような音声認識モデルでは、従来は入力データに対応する文字データ(テキスト)等1つの種別の出力を行う。
〔2.情報処理〕
ここから、図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理システムによる処理の一例を示す図である。まず、情報処理システム1の構成について説明する。
なお、上記の例では、分類ラベルが音声データが検知(収集)された場所の分類を示す場合を示したが、分類ラベルは、認識対象に関連する分類結果を示すものであればどのような対象の分類であってもよい。分類ラベルは、入力用データに含まれる情報のうち、認識対象以外の情報の種別を示すものである。つまり、分類ラベルは、入力用データのうち認識対象となるデータ以外のデータの分類結果を示すものであってもよい。また、分類ラベルは、入力用データのうち、認識対象となるデータから認識される認識結果以外の各種情報であってもよい。また、分類ラベルは、入力用データが取得された際の各種コンテキストを示すものであってもよい。このように、分類ラベルは、認識対象となるデータから認識結果を認識する認識処理において影響を及ぼしうる任意の要素であって、入力用データから取得もしくは推定可能な要素、もしくは入力用データに付随する各種の要素の分類結果が採用可能である。この点について以下例示を列挙する。なお、図1と同様の点については適宜説明を省略する。また、以下に示す各モデルのネットワーク構成はモデルM1と同様であってもよい。
例えば、モデルが出力する分類ラベル(第2出力)は、入力用データが検知された場所に限らず、入力用データに関連する様々なコンテキストの分類結果であってもよい。例えば、モデルが出力する分類ラベル(第2出力)は、入力用データに含まれる発話を行ったユーザに関連するコンテキストの分類結果であってもよい。
モデルが出力する分類ラベル(第2出力)は、発話を行ったユーザの発話以外の分類結果を示してもよい。例えば、モデルが出力する分類ラベル(第2出力)は、入力用データに含まれる発話を行ったユーザの周囲の状況の分類結果であってもよい。この場合、情報処理装置100は、ユーザの周囲の状況の分類結果を示す分類ラベルを含む学習用データを用いて、ユーザの周囲の状況の分類結果を示す第2出力と第1出力とを出力するモデル(「モデルM2」とする)を学習する。
モデルが出力する分類ラベル(第2出力)は、入力用データに含まれる発話を行ったユーザの属性の分類結果であってもよい。この場合、情報処理装置100は、ユーザの属性の分類結果を示す分類ラベルを含む学習用データを用いて、ユーザの属性の分類結果を示す第2出力と第1出力とを出力するモデル(「モデルM3」とする)を学習する。以下では、ユーザの年齢をユーザの属性の一例として説明するが、ユーザの属性は、年齢に限らず、性別、身長、出身地等の様々な属性(要素)であってもよい。
モデルが出力する分類ラベル(第2出力)は、ユーザが利用する端末装置10の分類結果であってもよい。例えば、モデルが出力する分類ラベル(第2出力)は、ユーザの発話(音声データ)を検知(収集)した端末装置10の機種の分類結果であってもよい。この場合、情報処理装置100は、端末装置10の機種の分類結果を示す分類ラベルを含む学習用データを用いて、端末装置10の機種の分類結果を示す第2出力と第1出力とを出力するモデル(「モデルM4」とする)を学習する。
なお、学習するモデルの用途は、音声文字変換に限らず、他の音声認識に関する様々な用途であってもよい。また、モデルの入力は、音声データに限らず、画像データ等様々な種別のデータが対象であってもよい。例えば、モデルの入力が画像データである場合、学習されるモデルの用途は、一般物体認識等の各種の画像認識に関する用途であってもよい。この場合、分類ラベルは、画像に含まれる物体以外の分類を示すものであってもよい。例えば、分類ラベルは、画像に含まれる人(ユーザ)の年齢等のユーザの属性であってもよく、画像が示すシーンの状況(昼、夜、室内、屋外等)などのコンテキストであってもよい。
次に、図2を用いて、実施形態に係る情報処理装置100の構成について説明する。図2は、実施形態に係る情報処理装置100の構成例を示す図である。図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、所定の通信網(ネットワーク)と有線または無線で接続され、端末装置10との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図2に示すように、学習用データ記憶部121と、モデル情報記憶部122とを有する。
実施形態に係る学習用データ記憶部121は、学習に用いるデータに関する各種情報を記憶する。学習用データ記憶部121は、学習に用いる学習データ(データセット)を記憶する。図3は、本開示の実施形態に係る学習用データ記憶部の一例を示す図である。例えば、学習用データ記憶部121は、学習に用いる学習データや精度評価(測定)に用いる評価用データ等の種々のデータに関する各種情報を記憶する。図3に、実施形態に係る学習用データ記憶部121の一例を示す。図3の例では、学習用データ記憶部121は、「データセットID」、「データID」、「データ」、「正解データ」、「分類ラベル」といった項目が含まれる。
実施形態に係るモデル情報記憶部122は、モデルに関する情報を記憶する。例えば、モデル情報記憶部122は、学習処理により学習(生成)された学習済みモデル(モデル)の情報(モデルデータ)を記憶する。図4は、本開示の第1の実施形態に係るモデル情報記憶部の一例を示す図である。図4に、第1の実施形態に係るモデル情報記憶部122の一例を示す。図4に示した例では、モデル情報記憶部122は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
図2の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
取得部131は、記憶部120から各種の情報を取得する。取得部131は、学習用データ記憶部121から学習に用いるデータを取得する。取得部131は、モデル情報記憶部122からモデルの情報を取得する。
決定部132は、種々の情報を決定する。例えば、決定部132は、分類ラベルを決定する。決定部132は、認識対象に関連する分類結果を決定することにより、モデルに学習させる分類ラベルを決定する。決定部132は、入力用データに関連するコンテキストをモデルに分類させる対象に決定する。決定部132は、音声データが検知された場所をモデルに分類させる対象に決定する。
学習部133は、モデルを学習する。学習部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習用データ記憶部121に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習により生成したモデルをモデル情報記憶部122に格納する。
提供部134は、通信部110を介して、端末装置10へ情報を送信する。提供部134は、端末装置10へモデルを提供する。例えば、提供部134は、端末装置10へ音声文字変換に用いるモデルM1を送信する。
次に、図5を用いて、実施形態に係る端末装置10の構成について説明する。図5は、実施形態に係る端末装置10の構成例を示す図である。図5に示すように、端末装置10は、通信部11と、記憶部12と、入力部13と、表示部14と、制御部15とを有する。なお、端末装置10は、各種情報を音声出力するための音声出力部(例えばスピーカ等)を有してもよい。
通信部11は、例えば、通信回路等によって実現される。そして、通信部11は、図示しない所定の通信網と有線または無線で接続され、情報処理装置100との間で情報の送受信を行う。
記憶部12は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部12は、例えば、端末装置10にインストールされているアプリケーション(例えば音声文字変換アプリ等)に関する情報、例えばプログラム等を記憶する。また、記憶部12は、情報処理装置100から提供されたモデルを記憶する。例えば、記憶部12は、モデルM1を記憶する。
入力部13は、ユーザからの各種操作を受け付ける。入力部13は、音声を検知する機能を有し、ユーザの発話による音声入力を受け付ける。入力部13は、音声を検知するマイクにより検知されたユーザによる発話を入力として受け付ける。
表示部14は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット端末等の表示画面であり、各種情報を表示するための表示装置である。
制御部15は、コントローラであり、例えば、CPUやMPU等によって、端末装置10内部の記憶部12などの記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。例えば、この各種プログラムは、インストールされているアプリケーション(例えばメッセージアプリ等)のプログラムが含まれる。また、制御部15は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
受信部151は、通信部11を介して、情報処理装置100から情報を受信する。受信部151は、情報処理装置100から提供されたモデルを受信する。
受付部152は、各種情報を受け付ける。例えば、受付部152は、入力部13を介してユーザによる入力を受け付ける。受付部152は、ユーザによる操作を受け付ける。受付部152は、表示部14により表示された情報に対するユーザの操作を受け付ける。受付部152は、ユーザによる発話を入力として受け付ける。例えば、受付部152は、ユーザU1による「XXXX」という発話を入力として受け付ける。
推論部153は、推論処理を行う。推論部153は、記憶部12に記憶されたモデルを用いて、推論処理を行う。推論部153は、受信部151により受信されたモデルを用いて推論を行う。推論部153は、受信部により受信されたモデルにデータを入力することにより、当該データに対応する第1出力と第2出力とを生成する推論処理を行う。推論部153は、モデルに音声データを入力することにより、当該音声データに対応する推論処理を行う。推論部153は、モデルに音声データを入力することにより、当該音声データに対応する文字データである第1出力と第2出力とを生成する推論処理を行う。
処理部154は、推論部153の推論結果を用いて各種の処理を実行する。処理部154は、推論部153の推論結果を表示部14に表示する。また、処理部154は、推論において入力に用いた音声データと、その音声データを書き起こした文字データと分類ラベルとのセットを学習用データとして、情報処理装置100に提供する。処理部154は、推論において入力に用いた音声データと、その音声データに対応する出力結果をユーザが修正したデータとのセットを学習用データとして、情報処理装置100に提供する。処理部154は、学習用データを送信部155に送信することを要求する。
送信部155は、通信部11を介して、情報処理装置100へ情報を送信する。送信部155は、処理部154からの要求に応じて、通信部11を介して、学習用データを情報処理装置100に送信する。送信部155は、推論において入力に用いた音声データと、その音声データを書き起こした文字データと分類ラベルとのセットを学習用データとして、情報処理装置100に送信する。送信部155は、推論において入力に用いた音声データと、その音声データに対応する出力結果をユーザが修正したデータとのセットを学習用データとして、情報処理装置100に送信する。
次に、図6を用いて、実施形態に係る情報処理システム1による情報処理の手順について説明する。図6は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。
上述してきたように、実施形態に係る情報処理装置100は、取得部131と、学習部133とを有する。取得部131は、機械学習のモデルの学習に用いる入力用データと、当該入力用データに含まれる認識対象を示す正解データと、認識対象に関連する分類結果を示す分類ラベルとを含む学習用データを取得する。学習部133は、学習用データを用いて、データの入力に応じて、正解データに対応する第1出力と分類ラベルに対応する第2出力とを出力するモデルを学習する。
また、上述した実施形態に係る端末装置10や情報処理装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に挙げて説明する。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
100 情報処理装置
120 記憶部
121 学習用データ記憶部
122 モデル情報記憶部
130 制御部
131 取得部
132 決定部
133 学習部
134 提供部
10 端末装置
11 通信部
12 記憶部
13 入力部
14 表示部
15 制御部
151 受信部
152 受付部
153 推論部
154 処理部
155 送信部
Claims (6)
- 機械学習のモデルの学習に用いる音声データである入力用データと、当該入力用データに含まれる認識対象を示す正解データと、前記入力用データに含まれるノイズの多寡に基づく分類結果を示す分類ラベルとを含む学習用データを取得する取得部と、
前記学習用データを用いて、データの入力に応じて、前記正解データに対応する第1出力と前記分類ラベルに対応し、当該データに含まれるノイズの多寡に基づく第2出力とを出力する前記モデルを学習する学習部と、
を備え、
前記取得部は、
前記入力用データが検知された場所の分類結果を示す前記分類ラベルを含む前記学習用データを取得し、
前記学習部は、
前記第1出力と、入力されたデータが検知された場所の分類結果を示す前記第2出力とを出力する前記モデルを学習する
ことを特徴とする情報処理装置。 - コンピュータが実行する情報処理方法であって、
機械学習のモデルの学習に用いる音声データである入力用データと、当該入力用データに含まれる認識対象を示す正解データと、前記入力用データに含まれるノイズの多寡に基づく分類結果を示す分類ラベルとを含む学習用データを取得する取得工程と、
前記学習用データを用いて、データの入力に応じて、前記正解データに対応する第1出力と前記分類ラベルに対応し、当該データに含まれるノイズの多寡に基づく第2出力とを出力する前記モデルを学習する学習工程と、
を含み、
前記取得工程は、
前記入力用データが検知された場所の分類結果を示す前記分類ラベルを含む前記学習用データを取得し、
前記学習工程は、
前記第1出力と、入力されたデータが検知された場所の分類結果を示す前記第2出力とを出力する前記モデルを学習する
ことを特徴とする情報処理方法。 - 機械学習のモデルの学習に用いる音声データである入力用データと、当該入力用データに含まれる認識対象を示す正解データと、前記入力用データに含まれるノイズの多寡に基づく分類結果を示す分類ラベルとを含む学習用データを取得する取得手順と、
前記学習用データを用いて、データの入力に応じて、前記正解データに対応する第1出力と前記分類ラベルに対応し、当該データに含まれるノイズの多寡に基づく第2出力とを出力する前記モデルを学習する学習手順と、
をコンピュータに実行させ、
前記取得手順は、
前記入力用データが検知された場所の分類結果を示す前記分類ラベルを含む前記学習用データを取得し、
前記学習手順は、
前記第1出力と、入力されたデータが検知された場所の分類結果を示す前記第2出力とを出力する前記モデルを学習する
ことを特徴とする情報処理プログラム。 - 機械学習のモデルの学習に用いる音声データである入力用データと、当該入力用データに含まれる認識対象を示す正解データと、前記入力用データに含まれるノイズの多寡に基づく分類結果を示す分類ラベルとを含む学習用データであって、前記入力用データが検知された場所の分類結果を示す前記分類ラベルを含む前記学習用データを用いて生成されたモデルであって、データの入力に応じて、前記正解データに対応する第1出力と前記分類ラベルに対応し、当該データに含まれるノイズの多寡に基づく第2出力とを出力するモデルを受信する受信部と、
前記受信部により受信された前記モデルにデータを入力することにより、当該データに対応する前記第1出力と、入力されたデータが検知された場所の分類結果を示す前記第2出力とを生成する推論処理を行う推論部と、
を備えたことを特徴とする端末装置。 - 機械学習のモデルの学習に用いる音声データである入力用データと、当該入力用データに含まれる認識対象を示す正解データと、前記入力用データに含まれるノイズの多寡に基づく分類結果を示す分類ラベルとを含む学習用データであって、前記入力用データが検知された場所の分類結果を示す前記分類ラベルを含む前記学習用データを用いて生成されたモデルであって、データの入力に応じて、前記正解データに対応する第1出力と前記分類ラベルに対応し、当該データに含まれるノイズの多寡に基づく第2出力とを出力するモデルを受信する受信工程と、
前記受信工程により受信された前記モデルにデータを入力することにより、当該データに対応する前記第1出力と、入力されたデータが検知された場所の分類結果を示す前記第2出力とを生成する推論処理を行う推論工程と、
を含んだことを特徴とする推論方法。 - 機械学習のモデルの学習に用いる音声データである入力用データと、当該入力用データに含まれる認識対象を示す正解データと、前記入力用データに含まれるノイズの多寡に基づく分類結果を示す分類ラベルとを含む学習用データであって、前記入力用データが検知された場所の分類結果を示す前記分類ラベルを含む前記学習用データを用いて生成されたモデルであって、データの入力に応じて、前記正解データに対応する第1出力と前記分類ラベルに対応し、当該データに含まれるノイズの多寡に基づく第2出力とを出力するモデルを受信する受信手順と、
前記受信手順により受信された前記モデルにデータを入力することにより、当該データに対応する前記第1出力と、入力されたデータが検知された場所の分類結果を示す前記第2出力とを生成する推論処理を行う推論手順と、
を端末装置に実行させることを特徴とする推論プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020155830A JP7408518B2 (ja) | 2020-09-16 | 2020-09-16 | 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020155830A JP7408518B2 (ja) | 2020-09-16 | 2020-09-16 | 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022049570A JP2022049570A (ja) | 2022-03-29 |
JP7408518B2 true JP7408518B2 (ja) | 2024-01-05 |
Family
ID=80853958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020155830A Active JP7408518B2 (ja) | 2020-09-16 | 2020-09-16 | 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7408518B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019087229A (ja) | 2017-11-02 | 2019-06-06 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法及びプログラム |
JP2020064253A (ja) | 2018-10-19 | 2020-04-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP2020140673A (ja) | 2019-03-01 | 2020-09-03 | 富士ゼロックス株式会社 | 学習装置、情報出力装置、及びプログラム |
-
2020
- 2020-09-16 JP JP2020155830A patent/JP7408518B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019087229A (ja) | 2017-11-02 | 2019-06-06 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法及びプログラム |
JP2020064253A (ja) | 2018-10-19 | 2020-04-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP2020140673A (ja) | 2019-03-01 | 2020-09-03 | 富士ゼロックス株式会社 | 学習装置、情報出力装置、及びプログラム |
Non-Patent Citations (3)
Title |
---|
大町 基,単語の表記と素性を同時出力するend-to-end音声認識,日本音響学会 2020年 秋季研究発表会講演論文集CD-ROM[CD-ROM],一般社団法人日本音響学会,2020年08月26日,pp.815-818 |
早川 友瑛,End-to-End複数言語音声認識モデルにおける様々なマルチタスク学習の検討,日本音響学会 2020年 秋季研究発表会講演論文集CD-ROM[CD-ROM],一般社団法人日本音響学会,2020年08月26日,pp.833-834 |
松原 拓未,CNN Autoencoderから抽出したボトルネック特徴量を用いた環境音分類,マルチメディア,分散,協調とモバイル(DICOMO2019)シンポジウム論文集[CD-ROM],一般社団法人情報処理学会,2019年06月26日,Vol.2019, No.1,p.339-346,ISSN: 1882-0840 |
Also Published As
Publication number | Publication date |
---|---|
JP2022049570A (ja) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417344B2 (en) | Exemplar-based natural language processing | |
TWI582753B (zh) | 用於操作一虛擬助理之方法、系統及電腦可讀儲存媒體 | |
US9760559B2 (en) | Predictive text input | |
US11393459B2 (en) | Method and apparatus for recognizing a voice | |
US20140074470A1 (en) | Phonetic pronunciation | |
US20140278355A1 (en) | Using human perception in building language understanding models | |
JP6983118B2 (ja) | 対話システムの制御方法、対話システム及びプログラム | |
US10678941B2 (en) | Privacy focused network sensor device object recognition | |
US11043215B2 (en) | Method and system for generating textual representation of user spoken utterance | |
US20200150934A1 (en) | Voice Interaction Development Tool | |
KR102253279B1 (ko) | 인공지능을 사용하는 키오스크 기반 무인결제시스템 및 그 방법 | |
JP2018067100A (ja) | ロボット対話システム | |
US11163377B2 (en) | Remote generation of executable code for a client application based on natural language commands captured at a client device | |
JP7408518B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム | |
US11238846B2 (en) | Information processing device and information processing method | |
KR20200082232A (ko) | 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법 | |
US20230088228A1 (en) | Information processing apparatus, information processing method, and information processing program | |
JP2023027697A (ja) | 端末装置、送信方法、送信プログラム及び情報処理システム | |
US11430429B2 (en) | Information processing apparatus and information processing method | |
JP7244468B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム | |
JP7354072B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP7093266B2 (ja) | 決定装置、決定方法及び決定プログラム | |
US20190179970A1 (en) | Cognitive human interaction and behavior advisor | |
JP7348150B2 (ja) | 学習装置、学習方法、及び学習プログラム | |
WO2022019159A1 (ja) | 情報処理装置、情報処理方法、情報検索装置及び情報検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231010 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7408518 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |