JP7092708B2 - 情報処理プログラム、情報処理装置及び情報処理方法 - Google Patents
情報処理プログラム、情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP7092708B2 JP7092708B2 JP2019094410A JP2019094410A JP7092708B2 JP 7092708 B2 JP7092708 B2 JP 7092708B2 JP 2019094410 A JP2019094410 A JP 2019094410A JP 2019094410 A JP2019094410 A JP 2019094410A JP 7092708 B2 JP7092708 B2 JP 7092708B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- utterance
- model
- complementary
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 56
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000000295 complement effect Effects 0.000 claims description 282
- 230000007547 defect Effects 0.000 claims description 92
- 238000000034 method Methods 0.000 claims description 78
- 230000002950 deficient Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 16
- 240000000220 Panda oleosa Species 0.000 claims description 12
- 235000016496 Panda oleosa Nutrition 0.000 claims description 12
- 230000007812 deficiency Effects 0.000 claims description 10
- 238000013500 data storage Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 16
- 230000004044 response Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 13
- 230000009118 appropriate response Effects 0.000 description 12
- 210000002569 neuron Anatomy 0.000 description 12
- 238000007477 logistic regression Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 241000219109 Citrullus Species 0.000 description 2
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101150117967 mdt-11 gene Proteins 0.000 description 2
- 101150023408 mdt-21 gene Proteins 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
まず、図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の一例を示す図である。図1に例示するように、情報処理システム1には、端末装置100が含まれる。なお、後述するように、情報処理システム1には、他の装置が含まれてもよい。これらの各種装置は、例えば、インターネットを介して、有線又は無線により通信可能に接続される。なお、図1に示した情報処理システム1には、任意の数の端末装置100が含まれていてもよい。
ここで、図1に示す判定モデルM11と補完モデルM21の学習処理の一例についてそれぞれ説明する。まず、実施形態に係る判定モデルM11の学習処理の一例について説明する。具体的には、端末装置100は、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベル(欠損部分が無い場合は「0」、欠損部分が有る場合は「1」)の各々との組合せである学習データ(以下、適宜「判定学習データ」と記載する)に基づいて、判定モデルM11を学習する。例えば、端末装置100は、先頭の子音「r」の欠損が有る発話情報「ensougeemu」(演奏ゲーム)と正解ラベル「1」との組合せである判定学習データに基づいて、入力情報として発話情報「ensougeemu」(演奏ゲーム)が入力された場合には、出力情報として正解ラベル「1」を出力するよう判定モデルM11を学習する。また、端末装置100は、欠損部分が無い発話情報「toukyounotenki」(東京の天気)と正解ラベル「0」との組合せである判定学習データに基づいて、入力情報として発話情報「toukyounotenki」(東京の天気)が入力された場合には、出力情報として正解ラベル「0」を出力するよう判定モデルM11を学習する。
次に、図2を用いて、実施形態に係る端末装置100の構成について説明する。図2は、実施形態に係る端末装置100の構成例を示す図である。図2に示すように、端末装置100は、通信部110と、記憶部120と、入力部130と、出力部140と、検知部150と、制御部160とを有する。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、例えば、インターネットなどのネットワークと有線または無線で接続され、他の装置との間で情報の送受信を行う。例えば、通信部110は、判定モデルM11や補完モデルM21を生成する他の装置との間で判定モデルM11や補完モデルM21の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、例えば、判定プログラムや生成プログラム等を記憶する。また、記憶部120は、図2に示すように、ユーザ情報記憶部121と発話情報記憶部122とモデル情報記憶部123と判定学習データ記憶部124と補完学習データ記憶部125とを有する。
ユーザ情報記憶部121は、ユーザに関する各種情報を記憶する。図3を用いて、実施形態に係るユーザ情報記憶部の一例について説明する。図3は、実施形態に係るユーザ情報記憶部の一例を示す図である。図3に示す例では、ユーザ情報記憶部121は、「ユーザID」、「属性情報」、「傾向情報」といった項目を有する。
発話情報記憶部122は、ユーザによる発話に関する各種情報を記憶する。図4を用いて、実施形態に係る発話情報記憶部の一例について説明する。図4は、実施形態に係る発話情報記憶部の一例を示す図である。図4に示す例では、発話情報記憶部122は、「発話ID」、「音声情報」、「発話情報」といった項目を有する。
モデル情報記憶部123は、モデルに関する各種情報を記憶する。図5を用いて、実施形態に係るモデル情報記憶部の一例について説明する。図5は、実施形態に係るモデル情報記憶部の一例を示す図である。図5に示す例では、モデル情報記憶部123は、「モデルID」、「モデルデータ」、「種別」といった項目を有する。
判定学習データ記憶部124は、判定モデルの学習データに関する各種情報を記憶する。図6を用いて、実施形態に係る判定学習データ記憶部の一例について説明する。図6は、実施形態に係る判定学習データ記憶部の一例を示す図である。図6に示す例では、判定学習データ記憶部124は、「判定学習データID」、「発話情報」、「正解ラベル(欠損有:1、欠損無:0)」といった項目を有する。
補完学習データ記憶部125は、補完モデルの学習データに関する各種情報を記憶する。図7を用いて、実施形態に係る補完学習データ記憶部の一例について説明する。図7は、実施形態に係る補完学習データ記憶部の一例を示す図である。図7に示す例では、補完学習データ記憶部125は、「補完学習データID」、「欠損発話情報」、「正解発話情報」といった項目を有する。
入力部130は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部130は、キーボードやマウスや操作キー等によって実現される。また、入力部130は、音声入力を行う装置(例えばマイク)であってもよい。
出力部140は、各種情報を表示するための表示装置である。例えば、出力部140は、液晶ディスプレイ等によって実現される。なお、端末装置100にタッチパネルが採用される場合には、入力部130と出力部140とは一体化される。また、以下の説明では、出力部140を画面と記載する場合がある。また、出力部140は、音声出力を行う装置(例えばスピーカー)であってもよい。例えば、出力部140は、出力制御部164から発話に対する応答に対応する音声情報を取得する。続いて、出力部140は、応答に対応する音声情報を取得すると、取得した音声情報を音声により出力する。
検知部150は、端末装置100に関する各種情報を検知する。具体的には、検知部150は、ユーザが発する音声や、端末装置100の周囲の環境音を検知する。例えば、検知部150は、マイクロフォン等の集音手段であり、音が入力された場合に、その音を音情報として取得する。
制御部160は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、端末装置100内部の記憶装置に記憶されている各種プログラム(生成プログラム又は判定プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。例えば、この各種プログラムは、ウェブブラウザと呼ばれるアプリケーションプログラムに該当する。また、制御部160は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
取得部161は、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得する。取得部161は、発話がローマ字変換された文字情報を発話情報として取得する。具体的には、取得部161は、検知部150によってユーザの発話が検知されると、検知部150によって検知されたユーザの発話に関する音声を取得する。続いて、取得部161は、音声を取得すると、取得した音声を音波に変換する。続いて、取得部161は、音声を音波に変換すると、音波から音素を特定する。続いて、取得部161は、音波から音素を特定すると、特定した音素の並びをローマ字に変換する。続いて、取得部161は、音素の並びをローマ字に変換すると、変換されたローマ字情報を発話情報として取得する。なお、取得部161は、発話情報を取得すると、取得した発話情報を音声情報と対応付けて発話情報記憶部122に格納する。
判定部162は、取得部161により取得された発話情報と判定モデルとに基づいて、発話情報の欠損部分の有無を判定する。判定部162は、発話情報の先頭または末尾の少なくとも一方の欠損部分の有無を判定する。具体的には、判定部162は、発話情報を判定モデルに入力することにより判定モデルが出力するスコアに基づいて、欠損部分の有無を判定する。より具体的には、判定部162は、判定モデルが出力するスコアと所定の閾値との比較に基づいて、欠損部分の有無を判定する。
生成部163は、取得部161により取得された発話情報と補完モデルとに基づいて、発話情報の欠損部分を補完する補完情報を生成する。具体的には、生成部163は、発話情報の先頭または末尾の少なくとも一方の欠損部分を補完する補完情報を生成する。より具体的には、生成部163は、発話情報を補完モデルに入力することにより発話情報と補完情報とからなる補完後発話情報を生成する。
出力制御部164は、端末装置100が有する出力機能を用いて、入力部130により入力を受け付けられたユーザによる発話に関する発話情報に応じた応答に対応する音を端末装置100から出力させる。また、出力制御部164は、生成部163によって補完後発話情報が生成された場合は、生成部163によって生成された補完後発話情報に応じた応答に対応する音を端末装置100から出力させる。
学習部165は、複数の発話情報の各々と正解ラベルの各々との組合せである学習データに基づいて、判定モデルを学習する。具体的には、学習部165は、過去の発話履歴の複数の発話情報の各々と、正解ラベルの各々との組合せである学習データに基づいて、判定モデルを学習する。より具体的には、学習部165は、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベル(欠損部分が無い場合は「0」、欠損部分が有る場合は「1」)の各々との組合せである判定学習データに基づいて、判定モデルを学習する。
次に、図9を用いて、実施形態に係る判定処理の手順について説明する。図9は、実施形態に係る判定処理手順を示すフローチャートである。図9に示す例では、端末装置100は、ユーザによる発話を検知したか否かを判定する(ステップS101)。端末装置100は、ユーザによる発話を検知していないと判定した場合(ステップS101;No)、処理を終了する。
次に、図10を用いて、実施形態に係る生成処理の手順について説明する。図10は、実施形態に係る生成処理手順を示すフローチャートである。図10に示す例では、端末装置100は、ユーザによる発話に関する発話情報と、発話の欠損の補完に用いる補完モデルとを取得する(ステップS201)。端末装置100は、発話情報と補完モデルとを取得すると、補完モデルを用いて、発話情報の欠損部分を補完する補完情報を生成する(ステップS202)。
上述した実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。
図1では、発話情報がローマ字情報である例について説明したが、発話情報はローマ字情報に限られない。ここでは、その他の発話情報の例について説明する。
取得部161は、発話が音声文字変換された所定の音声記号である文字情報を発話情報として取得する。具体的には、取得部161は、発話が音声文字変換された国際音声記号(International Phonetic Alphabet)である文字情報を発話情報として取得する。より具体的には、取得部161は、検知部150によってユーザの発話が検知されると、検知部150によって検知されたユーザの発話に関する音声を取得する。続いて、取得部161は、音声を取得すると、取得した音声を音波に変換する。続いて、取得部161は、音声を音波に変換すると、音波から音素を特定する。続いて、取得部161は、音波から音素を特定すると、特定した音素の並びを国際音声記号に変換する。続いて、取得部161は、音素の並びを国際音声記号に変換すると、変換された国際音声記号を発話情報として取得する。
取得部161は、発話が変換された文字情報を発話情報として取得する。具体的には、取得部161は、発話情報記憶部122の「文字情報」の項目を参照して、発話が漢字仮名交じり文字に変換された漢字仮名交じり文字情報を発話情報として取得する。
図1では、先頭欠損であるか末尾欠損であるか否かに関わらず、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルM11の例について説明したが、先頭欠損判定用の判定モデルと末尾欠損判定用の判定モデルとを分けてもよい。具体的には、学習部165は、先頭欠損の有無を判定する判定モデルM12(先頭欠損判定モデル)と末尾欠損の有無を判定する判定モデルM13(末尾欠損判定モデル)とをそれぞれ学習してもよい。
図1では、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルM21について説明したが、補完モデルは補完モデルM21に限られない。ここでは、その他の補完モデルの例について説明する。
学習部165は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、補完情報を出力する補完モデルM22を生成する。具体的には、学習部165は、入力情報として欠損発話情報が入力された場合には、出力情報として、欠損発話情報の欠損位置を示す所定の記号(例えば、「,」(カンマ))を欠損発話情報と補完情報との間に配置した情報を出力するよう補完モデルM22を学習する。以下では、発話の先頭が欠損している欠損発話情報の欠損部分に対応する補完情報のことを「先頭補完情報」と記載する。また、発話の末尾が欠損している欠損発話情報の欠損部分に対応する補完情報のことを「末尾補完情報」と記載する。また、欠損発話情報の欠損位置を示す所定の記号は、どのような記号であってもよい。例えば、欠損発話情報の欠損位置を示す所定の記号は、デリミタ(区切り文字)として一般的に使用される記号(「,」(カンマ)、タブ、「 」(スペース)等))であってもよい。以下では、欠損発話情報の欠損位置を示す所定の記号が「,」(カンマ)である例について説明する。
学習部165は、欠損部分が無い発話情報である完全発話情報が入力された場合は、完全発話情報を補完後発話情報として出力する補完モデルM23を生成する。具体的には、学習部165は、欠損部分が無い完全発話情報と、完全発話情報である正解発話情報との組合せを含む学習データに基づいて、補完モデルM23を学習する。例えば、学習部165は、欠損部分が無い完全発話情報「toukyounotenki」(東京の天気)と完全発話情報である正解発話情報「toukyounotenki」(東京の天気)との組合せである補完学習データを取得する。続いて、学習部165は、取得した補完学習データに基づいて、入力情報として完全発話情報「toukyounotenki」(東京の天気)が入力された場合には、出力情報として完全発話情報「toukyounotenki」(東京の天気)を出力するよう補完モデルM23を学習する。
図1では、先頭欠損であるか末尾欠損であるか否かに関わらず、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルM21の例について説明したが、先頭欠損補完用の補完モデルと末尾欠損補完用の補完モデルとを分けてもよい。具体的には、学習部165は、先頭欠損を補完する補完モデルM26(先頭欠損補完モデル)と末尾欠損を補完する補完モデルM27(末尾欠損補完モデル)とをそれぞれ学習してもよい。
上述してきたように、実施形態に係る端末装置100は、取得部161と生成部163を備える。取得部161は、ユーザによる発話に関する発話情報と、発話の欠損の補完に用いる補完モデルとを取得する。生成部163は、取得部161により取得された発話情報と補完モデルとに基づいて、発話情報の欠損部分を補完する補完情報を生成する。
また、上述してきた実施形態に係る端末装置100は、例えば図11に示すような構成のコンピュータ1000によって実現される。図11は、端末装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
100 端末装置
110 通信部
120 記憶部
121 ユーザ情報記憶部
122 発話情報記憶部
123 モデル情報記憶部
124 判定学習データ記憶部
125 補完学習データ記憶部
130 入力部
140 出力部
150 検知部
160 制御部
161 取得部
162 判定部
163 生成部
164 出力制御部
165 学習部
Claims (25)
- ユーザによる発話を検知すると、前記ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得し、前記発話情報に欠損部分があると判定された場合に、前記発話情報と、発話の欠損の補完に用いる補完モデルとを取得する取得手順と、
前記取得手順により取得された前記発話情報と前記判定モデルとに基づいて、前記発話情報の欠損部分の有無を判定する判定手順と、
前記取得手順により取得された前記発話情報と前記補完モデルとに基づいて、前記発話情報の欠損部分を補完する補完情報を生成する生成手順と、
前記発話情報に基づいて、前記判定モデルと、前記補完モデルとを学習する学習手順と、
をコンピュータに実行させ、
前記取得手順は、
発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を前記発話情報として取得し、
前記学習手順は、
ローマ字情報である前記発話情報に基づいて、ローマ字情報である発話の欠損の有無を判定する前記判定モデルと、ローマ字情報である発話の欠損を補完する前記補完モデルとを学習する
ことを特徴とする情報処理プログラム。 - 前記判定手順は、
ローマ字情報である発話の欠損の有無を判定する前記判定モデルに基づいて、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定する
ことを特徴とする請求項1に記載の情報処理プログラム。 - 前記生成手順は、
ローマ字情報である発話の欠損を補完する前記補完モデルに基づいて、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損を補完する前記補完情報を生成する
ことを特徴とする請求項1または請求項2に記載の情報処理プログラム。 - 前記取得手順は、
前記発話が音声文字変換された所定の音声記号である前記発話情報を取得し、
前記学習手順は、
音声記号である前記発話情報に基づいて、音声記号である発話の欠損の有無を判定する前記判定モデルと、音声記号である発話の欠損を補完する前記補完モデルとを学習する
ことを特徴とする請求項1~3のいずれか1項に記載の情報処理プログラム。 - 前記取得手順は、
前記発話が漢字仮名交じり文字に変換された漢字仮名交じり文字情報である前記発話情報を取得し、
前記学習手順は、
漢字仮名交じり文字情報である前記発話情報に基づいて、漢字仮名交じり文字情報である発話の欠損の有無を判定する前記判定モデルと、漢字仮名交じり文字情報である発話の欠損を補完する前記補完モデルとを学習する
ことを特徴とする請求項1~4のいずれか1項に記載の情報処理プログラム。 - 前記取得手順は、
前記発話情報を入力とし、入力された前記発話情報に前記欠損部分がある場合、前記補完情報を出力する前記補完モデルを取得し、
前記生成手順は、
前記発話情報を前記補完モデルに入力することにより前記補完情報を生成する
ことを特徴とする請求項1~5のいずれか1項に記載の情報処理プログラム。 - 前記取得手順は、
前記発話情報を入力とし、入力された前記発話情報に前記欠損部分がある場合、前記発話情報と前記補完情報とからなる補完後発話情報を出力する前記補完モデルを取得し、
前記生成手順は、
前記発話情報を前記補完モデルに入力することにより前記補完後発話情報を生成する
ことを特徴とする請求項1~5のいずれか1項に記載の情報処理プログラム。 - 前記取得手順は、
前記欠損部分がある欠損発話情報と、前記欠損発話情報に対応する前記欠損部分がない正解発話情報との組合せに基づいて、学習された前記補完モデルを取得する
ことを特徴とする請求項6または請求項7に記載の情報処理プログラム。 - 前記学習手順は、
前記欠損発話情報と前記正解発話情報との前記組合せを含む学習データに基づいて前記補完モデルを学習し、
前記取得手順は、
前記学習手順により学習された前記補完モデルを取得する
ことを特徴とする請求項8に記載の情報処理プログラム。 - 前記学習手順は、
過去の発話履歴の前記欠損発話情報と前記正解発話情報との前記組合せを含む前記学習データに基づいて、前記補完モデルを学習する
ことを特徴とする請求項9に記載の情報処理プログラム。 - 前記学習手順は、
前記欠損部分が無い完全発話情報と、当該完全発話情報である前記正解発話情報との組合せを含む前記学習データに基づいて、前記補完モデルを学習する
ことを特徴とする請求項9または請求項10に記載の情報処理プログラム。 - 前記取得手順は、
前記発話情報を入力とし、入力された前記発話情報に前記欠損部分がある可能性を示すスコアを出力する前記判定モデルを取得し、
前記判定手順は、
前記発話情報を前記判定モデルに入力することにより前記判定モデルが出力するスコアに基づいて、前記欠損部分の有無を判定する
ことを特徴とする請求項1~11のいずれか1項に記載の情報処理プログラム。 - 前記判定手順は、
前記判定モデルが出力する前記スコアと所定の閾値との比較に基づいて、前記欠損部分の有無を判定する
ことを特徴とする請求項12に記載の情報処理プログラム。 - 前記取得手順は、
複数の発話情報の各々と、前記複数の発話情報の各々の欠損部分の有無を示す正解ラベルの各々との組合せに基づいて、学習された前記判定モデルを取得する
ことを特徴とする請求項12または請求項13に記載の情報処理プログラム。 - 前記複数の発話情報の各々と前記正解ラベルの各々との前記組合せである学習データに基づいて、前記判定モデルを学習する学習手順、
をさらに実行し、
前記取得手順は、前記学習手順により学習された前記判定モデルを取得する
ことを特徴とする請求項14に記載の情報処理プログラム。 - 前記学習手順は、
過去の発話履歴の前記複数の発話情報の各々と、前記正解ラベルの各々との前記組合せである前記学習データに基づいて、前記判定モデルを学習する
ことを特徴とする請求項15に記載の情報処理プログラム。 - 前記学習手順は、
前記発話情報と、前記発話情報の欠損部分の有無を示す正解ラベルとの組合せである学習データに基づいて前記判定モデルを学習して、前記発話情報を入力とし、入力された前記発話情報に欠損部分がある可能性を示すスコアを出力する前記判定モデルを生成する
ことを特徴とする請求項1~16のいずれか1項に記載の情報処理プログラム。 - 前記判定モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に応じて、前記発話情報に欠損部分がある可能性を示すスコアを出力層から出力する
ことを特徴とする請求項17に記載の情報処理プログラム。 - 前記判定モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、前記発話情報に欠損部分がある可能性を示すスコアを出力層から出力する
ことを特徴とする請求項17に記載の情報処理プログラム。 - 前記学習手順は、
前記発話情報に関して、欠損部分がある欠損発話情報と、前記欠損発話情報に対応する欠損部分がない正解発話情報との組合せを含む学習データに基づいて前記補完モデルを学習して、前記発話情報を入力とし、入力された前記発話情報に欠損部分がある場合、前記発話情報と前記補完情報とからなる補完後発話情報を出力する前記補完モデルを生成する
ことを特徴とする請求項17~19のいずれか1項に記載の情報処理プログラム。 - 前記補完モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に応じて、補完後前記発話情報を出力層から出力する
ことを特徴とする請求項20に記載の情報処理プログラム。 - 前記補完モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、補完後前記発話情報を出力層から出力する
ことを特徴とする請求項20に記載の情報処理プログラム。 - 前記判定モデル及び前記補完モデルは、回帰モデルで実現される
ことを特徴とする請求項1~22のいずれか1項に記載の情報処理プログラム。 - ユーザによる発話を検知すると、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得し、前記発話情報に欠損部分があると判定された場合に、前記発話情報と、発話の欠損の補完に用いる補完モデルとを取得する取得部と、
前記取得部により取得された前記発話情報と前記判定モデルとに基づいて、前記発話情報の欠損部分の有無を判定する判定部と、
前記取得部により取得された前記発話情報と前記補完モデルとに基づいて、前記発話情報の欠損部分を補完する補完情報を生成する生成部と、
前記発話情報に基づいて、前記判定モデルと、前記補完モデルとを学習する学習部と、
を備え、
前記取得部は、
発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を前記発話情報として取得し、
前記学習部は、
ローマ字情報である前記発話情報に基づいて、ローマ字情報である発話の欠損の有無を判定する前記判定モデルと、ローマ字情報である発話の欠損を補完する前記補完モデルとを学習する
ことを特徴とする情報処理装置。 - コンピュータが実行する判定方法であって、
ユーザによる発話を検知すると、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得し、前記発話情報に欠損部分があると判定された場合に、前記発話情報と、発話の欠損の補完に用いる補完モデルとを取得する取得工程と、
前記取得工程により取得された前記発話情報と前記判定モデルとに基づいて、前記発話情報の欠損部分の有無を判定する判定工程と、
前記取得工程により取得された前記発話情報と前記補完モデルとに基づいて、前記発話情報の欠損部分を補完する補完情報を生成する生成工程と、
前記発話情報に基づいて、前記判定モデルと、前記補完モデルとを学習する学習工程と、
を含み、
前記取得工程は、
発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を前記発話情報として取得し、
前記学習工程は、
ローマ字情報である前記発話情報に基づいて、ローマ字情報である発話の欠損の有無を判定する前記判定モデルと、ローマ字情報である発話の欠損を補完する前記補完モデルとを学習する
ことを特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019094410A JP7092708B2 (ja) | 2019-05-20 | 2019-05-20 | 情報処理プログラム、情報処理装置及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019094410A JP7092708B2 (ja) | 2019-05-20 | 2019-05-20 | 情報処理プログラム、情報処理装置及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020190589A JP2020190589A (ja) | 2020-11-26 |
JP7092708B2 true JP7092708B2 (ja) | 2022-06-28 |
Family
ID=73454476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019094410A Active JP7092708B2 (ja) | 2019-05-20 | 2019-05-20 | 情報処理プログラム、情報処理装置及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7092708B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251147A (ja) | 2005-03-09 | 2006-09-21 | Canon Inc | 音声認識方法 |
JP2009109585A (ja) | 2007-10-26 | 2009-05-21 | Panasonic Electric Works Co Ltd | 音声認識制御装置 |
JP2010128766A (ja) | 2008-11-27 | 2010-06-10 | Canon Inc | 情報処理装置、情報処理方法、プログラム及び記憶媒体 |
JP2010256498A (ja) | 2009-04-22 | 2010-11-11 | Nec Corp | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02183300A (ja) * | 1989-01-10 | 1990-07-17 | Hitachi Ltd | 音声認識装置 |
JP3126945B2 (ja) * | 1997-10-30 | 2001-01-22 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 文字誤り校正装置 |
-
2019
- 2019-05-20 JP JP2019094410A patent/JP7092708B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006251147A (ja) | 2005-03-09 | 2006-09-21 | Canon Inc | 音声認識方法 |
JP2009109585A (ja) | 2007-10-26 | 2009-05-21 | Panasonic Electric Works Co Ltd | 音声認識制御装置 |
JP2010128766A (ja) | 2008-11-27 | 2010-06-10 | Canon Inc | 情報処理装置、情報処理方法、プログラム及び記憶媒体 |
JP2010256498A (ja) | 2009-04-22 | 2010-11-11 | Nec Corp | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020190589A (ja) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3770905B1 (en) | Speech recognition method, apparatus and device, and storage medium | |
AU2019200746B2 (en) | Method to generate summaries tuned to topics of interest of readers | |
US11423883B2 (en) | Contextual biasing for speech recognition | |
US10534854B2 (en) | Generating a targeted summary of textual content tuned to a target audience vocabulary | |
US11189273B2 (en) | Hands free always on near field wakeword solution | |
US8930187B2 (en) | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device | |
EP3605537A1 (en) | Speech emotion detection method and apparatus, computer device, and storage medium | |
US20230089285A1 (en) | Natural language understanding | |
US11574637B1 (en) | Spoken language understanding models | |
CN112005299B (zh) | 理解自然语言短语的多模型 | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
US11756549B2 (en) | Systems and methods for enabling topic-based verbal interaction with a virtual assistant | |
US11984126B2 (en) | Device for recognizing speech input of user and operating method thereof | |
JP2012113542A (ja) | 感情推定装置、その方法、プログラム及びその記録媒体 | |
JP2020077159A (ja) | 対話システム、対話装置、対話方法、及びプログラム | |
US10366442B1 (en) | Systems and methods to update shopping cart | |
JP6392950B1 (ja) | 検出装置、検出方法、および検出プログラム | |
JP2018156418A (ja) | 修正装置、修正方法および修正プログラム | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
KR20220089537A (ko) | 전자 장치 및 이의 제어 방법 | |
US11741945B1 (en) | Adaptive virtual assistant attributes | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
JP7092708B2 (ja) | 情報処理プログラム、情報処理装置及び情報処理方法 | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7092708 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |