JP7092708B2 - 情報処理プログラム、情報処理装置及び情報処理方法 - Google Patents

情報処理プログラム、情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP7092708B2
JP7092708B2 JP2019094410A JP2019094410A JP7092708B2 JP 7092708 B2 JP7092708 B2 JP 7092708B2 JP 2019094410 A JP2019094410 A JP 2019094410A JP 2019094410 A JP2019094410 A JP 2019094410A JP 7092708 B2 JP7092708 B2 JP 7092708B2
Authority
JP
Japan
Prior art keywords
information
utterance
model
complementary
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019094410A
Other languages
English (en)
Other versions
JP2020190589A (ja
Inventor
伸裕 鍜治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019094410A priority Critical patent/JP7092708B2/ja
Publication of JP2020190589A publication Critical patent/JP2020190589A/ja
Application granted granted Critical
Publication of JP7092708B2 publication Critical patent/JP7092708B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理プログラム、情報処理装置及び情報処理方法に関する。
従来、ユーザによる発話を音声入力するシステムに関する技術が知られている。例えば、音声入力を受け付けた場合に音声を音声データに変換し、変換した音声データを文字データに変換する技術が知られている。
特開2001-285413号公報
しかしながら、上記の従来技術では、音声入力に関するユーザビリティが良いとは言えない場合がある。例えば、上記の従来技術では、音声入力を受け付けた場合に音声を音声データに変換し、変換した音声データを文字データに変換するにすぎないため、入力を受け付けた音声そのものに欠損がある場合には、音声データを適切な文字データに変換することは困難である。
本願発明は、上記に鑑みてなされたものであって、音声入力に関するユーザビリティを向上させることができる情報処理プログラム、情報処理装置及び情報処理方法を提供することを目的とする。
本願発明に係る情報処理プログラムは、ユーザによる発話を検知すると、前記ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得し、前記発話情報に欠損部分があると判定された場合に、前記発話情報と、発話の欠損の補完に用いる補完モデルとを取得する取得手順と、前記取得手順により取得された前記発話情報と前記判定モデルとに基づいて、前記発話情報の欠損部分の有無を判定する判定手順と、前記取得手順により取得された前記発話情報と前記補完モデルとに基づいて、前記発話情報の欠損部分を補完する補完情報を生成する生成手順と、前記発話情報に基づいて、前記判定モデルと、前記補完モデルとを学習する学習手順と、をコンピュータに実行させ、前記取得手順は、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を前記発話情報として取得し、前記学習手順は、ローマ字情報である前記発話情報に基づいて、ローマ字情報である発話の欠損の有無を判定する前記判定モデルと、ローマ字情報である発話の欠損を補完する前記補完モデルとを学習することを特徴とする。
実施形態の一態様によれば、音声入力に関するユーザビリティを向上させることができるといった効果を奏する。
図1は、実施形態に係る情報処理の一例を示す図である。 図2は、実施形態に係る端末装置の構成例を示す図である。 図3は、実施形態に係るユーザ情報記憶部の一例を示す図である。 図4は、実施形態に係る発話情報記憶部の一例を示す図である。 図5は、実施形態に係るモデル情報記憶部の一例を示す図である。 図6は、実施形態に係る判定学習データ記憶部の一例を示す図である。 図7は、実施形態に係る補完学習データ記憶部の一例を示す図である。 図8は、実施形態に係る補完モデルの一例を示す図である。 図9は、実施形態に係る判定処理手順を示すフローチャートである。 図10は、実施形態に係る生成処理手順を示すフローチャートである。 図11は、端末装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理プログラム、情報処理装置及び情報処理方法を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理プログラム、情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.情報処理の一例〕
まず、図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の一例を示す図である。図1に例示するように、情報処理システム1には、端末装置100が含まれる。なお、後述するように、情報処理システム1には、他の装置が含まれてもよい。これらの各種装置は、例えば、インターネットを介して、有線又は無線により通信可能に接続される。なお、図1に示した情報処理システム1には、任意の数の端末装置100が含まれていてもよい。
端末装置10は、ユーザと雑談や他愛のない会話といった非タスク志向型の対話を行うシステムである非タスク志向型対話システム(non-task-oriented dialogue systems)である。なお、タスク志向型対話システムは、ユーザの要求に応じて、検索やニュース読み上げや予約代行などのタスクを行うシステムを指す。端末装置100は、テキストや音声を通じてユーザとの対話を自動的に行うプログラムであるチャットボット(chatbot)の一種である。
また、端末装置100は、周囲の音を取得するマイク等の入力装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。また、端末装置100は、音楽の出力や音声による情報提供を実現可能な装置である。また、端末装置100は、音の入力を受付ける受付機能を有しユーザが発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。なお、端末装置100は、スマートスピーカー以外にも、スマートフォンやタブレット等といった各種の情報処理装置であってもよい。図1では、端末装置100がスマートフォンである例を示す。また、端末装置100は、必ずしもスピーカー等の端末装置を有する必要はない。例えば、端末装置100は、音声に代えて、文字列等の情報を表示することで各種の情報をユーザに対して出力してもよい。
図1に示す例では、端末装置100は、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとに基づいて、発話情報の欠損部分の有無を判定する。また、端末装置100は、ユーザによる発話に関する発話情報と、発話の欠損の補完に用いる補完モデルとに基づいて、発話情報の欠損部分を補完する補完情報を生成する。
一般的に、対話システムでは、ユーザによる発話の先頭や末尾の音声認識に失敗することがよくある。具体的には、ユーザが発話を開始すると同時に対話システムのアプリケーションを起動する操作を行う場合、アプリケーションが起動するタイミングが発話の開始より少し遅れると、ユーザによる発話の先頭の音声認識に失敗することがある。また、一般的に、人間の発話の音量は、発話の開始時と終了時に小さくなる傾向があるため、ユーザの発話の先頭の音(例えば、子音)や発話の末尾の音が欠損して音声認識に失敗することがある。また、ユーザが言葉に詰まってしまい、長い間(数秒間)無言となってしまうと、そこで発話が終了したと誤認識されることがある。
例えば、ユーザが「東京の天気(toukyounotenki)」と発話したつもりであっても、「の天気(notenki)」のように先頭の「東京(toukyou)」が欠損した発話が音声認識される場合がある。また、ユーザが「連想ゲーム(rensougeemu)」と発話したつもりであっても、「演奏ゲーム(ensougeemu)」のように先頭の子音(r)が欠損した発話が音声認識される場合がある。また、ユーザが「しりとりしよう(shiritorishiyou)」と発話したつもりであっても、「とりしよう(torishiyou)」のように先頭の「しり(shiri)」が欠損した発話が音声認識される場合がある。また、ユーザが「肩パッド(katapaddo)」と発話したつもりであっても、「かたぱ(katapa)」のように末尾の「っど(ddo)」が欠損した発話が音声認識される場合がある。
そこで、本願発明に係る端末装置100は、発話情報の先頭または末尾の少なくとも一方の欠損部分を補完する補完情報を生成する。また、本願発明に係る端末装置100は、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を発話情報として取得する。以下では、発話がローマ字変換された文字情報のことを、適宜「ローマ字情報」と記載する。また、本願発明に係る端末装置100は、ローマ字情報である発話の欠損の有無を判定する判定モデルを学習する。これにより、本願発明に係る端末装置100は、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定することができる。また、本願発明に係る端末装置100は、ローマ字情報である発話の欠損を補完する補完モデルを学習する。これにより、本願発明に係る端末装置100は、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損を補完することができる。
また、以下では、日本語による理解を助けるため、発話が漢字仮名交じり文字(漢字とかな文字を併用した文字)に変換された文字情報(以下、適宜「漢字仮名交じり文字情報」と記載する)とローマ字情報とを併記する場合がある。例えば、ローマ字情報が「torishiyou」である場合には、漢字仮名交じり文字情報は「とりしよう」なので、「torishiyou」(とりしよう)のようにローマ字情報と漢字仮名交じり文字情報とを併記する場合がある。
以下に、図1を用いて、情報処理の流れについて説明する。図1は、実施形態に係る情報処理の一例を示す図である。図1に示す例では、端末装置100は、ユーザID「U1」で識別されるユーザ(ユーザU1)による発話PA1を検知する(ステップS1)。
端末装置100は、発話PA1を検知すると、ユーザU1による発話PA1に関する発話情報IN1を取得する。具体的には、端末装置100は、発話PA1を検知すると、発話PA1がローマ字変換された文字情報「torishiyou」を発話情報IN1として取得する。
また、端末装置100は、発話PA1を検知すると、発話の欠損の有無の判定に用いる判定モデルM11を取得する。具体的には、端末装置100は、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルM11を取得する。端末装置100は、発話情報IN1と判定モデルM11とを取得すると、発話情報IN1「torishiyou」を判定モデルM11に入力する(ステップS2)。なお、図1では、日本語による理解を助けるため、ローマ字情報「torishiyou」と漢字仮名交じり文字情報「とりしよう」とを併記する。なお、併記する漢字仮名交じり文字情報「とりしよう」を判定モデルM11の入力情報として用いてもよいが、この点については後述する。
端末装置100は、発話情報IN1「torishiyou」を判定モデルM11に入力することにより、入力された発話情報IN1「torishiyou」に欠損部分がある可能性を示すスコアSC1「0.8」を判定モデルM11から出力する(ステップS3)。
端末装置100は、スコアSC1「0.8」を判定モデルM11から出力すると、判定モデルM11が出力したスコアSC1「0.8」と所定の閾値TH1「0.75」との比較に基づいて、発話情報IN1「torishiyou」に欠損部分が有るか無いかを判定する。具体的には、端末装置100は、判定モデルM11が出力したスコアSC1「0.8」が所定の閾値TH1「0.75」を超えるので、判定モデルM11に入力された発話情報IN1「torishiyou」(とりしよう)に欠損DC1が有ると判定する(ステップS4)。
続いて、端末装置100は、発話情報IN1「torishiyou」(とりしよう)に欠損DC1が有ると判定すると、発話情報IN1と発話の欠損の補完に用いる補完モデルM21とを取得する。具体的には、端末装置100は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報の欠損部分を補完する補完情報と発話情報とからなる補完後発話情報を出力する補完モデルM21を取得する。端末装置100は、発話情報IN1と補完モデルM21とを取得すると、発話情報IN1「torishiyou」を補完モデルM21に入力する(ステップS5)。なお、図1では、日本語による理解を助けるため、ローマ字情報「torishiyou」と漢字仮名交じり文字情報「とりしよう」とを併記する。
端末装置100は、発話情報IN1「torishiyou」を補完モデルM21に入力することにより、補完情報「shiri」と発話情報IN1「torishiyou」とからなる補完後発話情報CT1「shiritorishiyou」を補完モデルM21から出力する(ステップS6)。なお、図1では、日本語による理解を助けるため、ローマ字情報「shiritorishiyou」と漢字仮名交じり文字情報「しりとりしよう」とを併記する。
端末装置100は、補完後発話情報CT1「shiritorishiyou」を補完モデルM21から出力すると、出力した補完後発話情報CT1「shiritorishiyou」に基づいて発話PA1に対する応答コンテンツを生成する。例えば、端末装置100は、補完後発話情報CT1「shiritorishiyou」(しりとりしよう)に基づいて、ユーザU1からしりとりの開始要求を受け付けたと判定する。端末装置100は、ユーザU1から受け付けたしりとりの開始要求に応じて、しりとりの開始要求に対する応答に対応する音声情報を生成する。例えば、端末装置100は、「それでは、まずは「スイカ」。」という日本語に対応する音声情報を生成する。例えば、端末装置100は、応答に対応する音声情報を生成すると、生成した音声情報を音声出力する(ステップS7)。
上述したように、端末装置100は、ユーザによる発話に関する発話情報と、発話の欠損の補完に用いる補完モデルとを取得する。そして、端末装置100は、取得した発話情報と補完モデルとに基づいて、発話情報の欠損部分を補完する補完情報を生成する。これにより、端末装置100は、ユーザによる発話の音声認識に失敗した場合であっても、欠損部分を補完した発話に関する発話情報を取得可能とする。すなわち、端末装置100は、ユーザによる発話の音声認識に失敗した場合であっても、ユーザに対して正しい発話の再入力を要求することなく、適切な応答を出力可能とする。また、端末装置100は、ユーザによる発話の音声認識に失敗した場合であっても、欠損した発話に基づいてユーザに対して的外れな応答を出力することなく、適切な応答を出力可能とする。したがって、端末装置100は、音声入力に関するユーザビリティを向上させることができる。
〔2.学習処理の一例〕
ここで、図1に示す判定モデルM11と補完モデルM21の学習処理の一例についてそれぞれ説明する。まず、実施形態に係る判定モデルM11の学習処理の一例について説明する。具体的には、端末装置100は、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベル(欠損部分が無い場合は「0」、欠損部分が有る場合は「1」)の各々との組合せである学習データ(以下、適宜「判定学習データ」と記載する)に基づいて、判定モデルM11を学習する。例えば、端末装置100は、先頭の子音「r」の欠損が有る発話情報「ensougeemu」(演奏ゲーム)と正解ラベル「1」との組合せである判定学習データに基づいて、入力情報として発話情報「ensougeemu」(演奏ゲーム)が入力された場合には、出力情報として正解ラベル「1」を出力するよう判定モデルM11を学習する。また、端末装置100は、欠損部分が無い発話情報「toukyounotenki」(東京の天気)と正解ラベル「0」との組合せである判定学習データに基づいて、入力情報として発話情報「toukyounotenki」(東京の天気)が入力された場合には、出力情報として正解ラベル「0」を出力するよう判定モデルM11を学習する。
そして、端末装置100は、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルM11を生成する。例えば、端末装置100は、発話情報「torishiyou」(とりしよう)を入力とし、入力された発話情報「torishiyou」(とりしよう)に欠損部分がある可能性を示すスコア「0.8」を出力する判定モデルM11を生成する。
なお、端末装置100は、いかなる学習アルゴリズムを用いて判定モデルM11を生成してもよい。例えば、端末装置100は、ニューラルネットワーク(neural network)、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて判定モデルM11を生成する。一例として、端末装置100がニューラルネットワークを用いて判定モデルM11を生成する場合、判定モデルM11は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
判定モデルM11は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に応じて、発話情報に欠損部分がある可能性を示すスコアを出力層から出力するよう、コンピュータを機能させる。
判定モデルM11は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、発話情報に欠損部分がある可能性を示すスコアを出力層から出力するよう、コンピュータを機能させる。
ここで、判定モデルM11が「y=1/(1+exp(-t))、t=a0+a1*x1+a2*x2+・・・+ai*xi」で示すロジスティック回帰モデルで実現されるとする。この場合、判定モデルM11が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。ここで、入力データ(xi)は発話情報である。また、yは発話情報に欠損部分がある可能性を示すスコアである予測確率(0~1の値)である。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、ロジスティック回帰モデルは、標準シグモイド関数σを用いると「y=σ(t)=σ(a1*x1+a2*x2+・・・+ai*xi)」のように表せる。したがって、ロジスティック回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。なお、ロジスティック回帰では、最尤法によりパラメータ(係数ai)を推定する。具体的には、最尤法では、モデルのパラメータ(係数ai)を推定する尤度関数を導出する。そして、負の対数尤度関数が最小になるように反復解法を繰り返すことにより、パラメータ(係数ai)を推定する。
端末装置100は、上述したロジスティック回帰モデル等、発生確率を予測するために用いられるモデルであって、任意の構造を有する判定モデルM11を用いて、発話情報に欠損部分がある可能性を示すスコアの算出を行う。具体的には、判定モデルM11は、発話情報に対応する数値(例えば、ベクトル)が入力された場合に、発話情報に欠損部分がある可能性を示すスコアを出力するように係数が設定される。端末装置100は、このような判定モデルM11を用いて、発話情報に欠損部分がある可能性を示すスコアを算出する。
次に、実施形態に係る補完モデルM21の学習処理の一例について説明する。具体的には、端末装置100は、欠損部分がある欠損発話情報と、欠損発話情報に対応する欠損部分がない正解発話情報との組合せを含む学習データ(以下、適宜「補完学習データ」と記載する)に基づいて補完モデルM21を学習する。例えば、端末装置100は、先頭の子音「r」の欠損が有る欠損発話情報「ensougeemu」(演奏ゲーム)と欠損発話情報に対応する欠損部分がない正解発話情報「rensougeemu」(連想ゲーム)との組合せである補完学習データに基づいて、入力情報として欠損発話情報「ensougeemu」(演奏ゲーム)が入力された場合には、出力情報として正解発話情報「rensougeemu」(連想ゲーム)を出力するよう補完モデルM21を学習する。また、端末装置100は、欠損部分がある欠損発話情報「notenki」(の天気)と欠損発話情報に対応する欠損部分がない正解発話情報「toukyounotenki」(東京の天気)との組合せである補完学習データに基づいて、入力情報として欠損発話情報「notenki」(の天気)が入力された場合には、出力情報として正解発話情報「toukyounotenki」(東京の天気)を出力するよう補完モデルM21を学習する。
そして、端末装置100は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルM21を生成する。例えば、端末装置100は、発話情報「torishiyou」(とりしよう)を入力とし、入力された発話情報に欠損部分がある場合、補完情報「shiri」(しり)と発話情報「torishiyou」(とりしよう)とからなる補完後発話情報「shiritorishiyou」(しりとりしよう)を出力する補完モデルM21を生成する。
例えば、端末装置100は、Seq2Seq(Sequence to Sequence Model)である補完モデルM21を生成する。Seq2Seqは、語句の並び(文字列)を入力して、別の語句の並び(文字列)を出力するルールを学習するモデルである。具体的には、Seq2Seqは、RNN(Recurrent Neural Network)の一種であるLSTM(Long Short Term Memory)を構成要素とするEncoder-Decoderモデルである。
例えば、Seq2Seqである補完モデルM21は、「ABC」という文字列を入力して、「WXYZ」という文字列を出力する。図1に示す例に当てはめると、「ABC」は、欠損部分がある発話情報IN1「torishiyou」(とりしよう)である。また、「WXYZ」は、欠損部分がない補完後発話情報CT1「shiritorishiyou」(しりとりしよう)である。このような「ABC」(欠損部分がある発話情報)と「WXYZ」(欠損部分がない発話情報)の組があった場合、Seq2Seqである補完モデルM21は、「ABC」が入力されているEncoder側で「ABC」をベクトル化し、「WXYZ」が出力されているDecoder側で「WXYZ」を生成するようにRNNの学習を行う。
なお、端末装置100は、いかなる学習アルゴリズムを用いて補完モデルM21を生成してもよい。例えば、端末装置100は、ニューラルネットワーク(neural network)、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて補完モデルM21を生成する。一例として、端末装置100がニューラルネットワークを用いて補完モデルM21を生成する場合、補完モデルM21は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
補完モデルM21は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に応じて、補完後発話情報を出力層から出力するよう、コンピュータを機能させる。
補完モデルM21は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、補完後発話情報を出力層から出力するよう、コンピュータを機能させる。
ここで、補完モデルM21が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、補完モデルM21が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
また、補完モデルM21がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、補完モデルM21が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
端末装置100は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有する補完モデルM21を用いて、補完後発話情報に対応する数値(例えば、ベクトル)の算出を行う。具体的には、補完モデルM21は、発話情報に対応する数値(例えば、ベクトル)が入力された場合に、補完後発話情報に対応する数値(例えば、ベクトル)を出力するように係数が設定される。端末装置100は、このような補完モデルM21を用いて、補完後発話情報に対応する数値(例えば、ベクトル)を算出する。
また、端末装置100がGAN(Generative Adversarial Networks)を用いた算出処理を行う場合、補完モデルM21は、GANの一部を構成するモデルであってもよい。
なお、上述した例では、端末装置100が判定モデルM11及び補完モデルM21を学習する例について説明したが、他の装置が判定モデルM11及び補完モデルM21を学習してもよい。具体的には、他の装置は、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベルの各々との組合せである学習データに基づいて、判定モデルM11を学習する。そして、他の装置は、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルM11を生成する。他の装置は、判定モデルM11を生成すると、生成した判定モデルM11を記憶部に格納する。
また、他の装置は、欠損部分がある欠損発話情報と、欠損発話情報に対応する欠損部分がない正解発話情報との組合せを含む学習データに基づいて補完モデルM21を学習する。そして、他の装置は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルM21を生成する。他の装置は、補完モデルM21を生成すると、生成した補完モデルM21を記憶部に格納する。
端末装置100は、通信部110を介して、判定モデルM11のモデルデータと補完モデルM21のモデルデータの配信要求を他の装置に送信する。他の装置は、判定モデルM11のモデルデータと補完モデルM21のモデルデータの配信要求を端末装置100から取得する。他の装置は、配信要求を取得すると、配信要求に応じて、判定モデルM11のモデルデータと補完モデルM21のモデルデータを端末装置100に送信する。端末装置100は、通信部110を介して、判定モデルM11のモデルデータと補完モデルM21のモデルデータを取得する。
〔3.端末装置の構成〕
次に、図2を用いて、実施形態に係る端末装置100の構成について説明する。図2は、実施形態に係る端末装置100の構成例を示す図である。図2に示すように、端末装置100は、通信部110と、記憶部120と、入力部130と、出力部140と、検知部150と、制御部160とを有する。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、例えば、インターネットなどのネットワークと有線または無線で接続され、他の装置との間で情報の送受信を行う。例えば、通信部110は、判定モデルM11や補完モデルM21を生成する他の装置との間で判定モデルM11や補完モデルM21の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、例えば、判定プログラムや生成プログラム等を記憶する。また、記憶部120は、図2に示すように、ユーザ情報記憶部121と発話情報記憶部122とモデル情報記憶部123と判定学習データ記憶部124と補完学習データ記憶部125とを有する。
(ユーザ情報記憶部121)
ユーザ情報記憶部121は、ユーザに関する各種情報を記憶する。図3を用いて、実施形態に係るユーザ情報記憶部の一例について説明する。図3は、実施形態に係るユーザ情報記憶部の一例を示す図である。図3に示す例では、ユーザ情報記憶部121は、「ユーザID」、「属性情報」、「傾向情報」といった項目を有する。
「ユーザID」は、ユーザを識別するための識別情報を示す。「属性情報」は、ユーザの属性に関する情報を示す。具体的には、「属性情報」には、ユーザの年齢、性別、居住地、ライフサイクル、所得、職業といったユーザのデモグラフィック属性に関する情報が含まれる。また、「属性情報」には、ユーザの価値観、ライフスタイル、性格、好みなどのサイコグラフィック属性に関する情報が含まれてもよい。「傾向情報」は、ユーザの傾向に関する情報を示す。具体的には、「傾向情報」には、ユーザによる発話に関する傾向を示す情報が含まれる。より具体的には、「傾向情報」には、ユーザが頻繁に入力する発話に関する発話情報が含まれる。例えば、ユーザU1が「東京の天気」という発話を頻繁に入力する場合、ユーザU1の傾向情報#1として「東京の天気」という発話に関する発話情報を記憶する。また、「傾向情報」には、ユーザが興味や関心を抱いているジャンルやトピック、趣味や嗜好に関するキーワードに関する情報が含まれてもよい。
図3の1レコード目に示す例では、ユーザID「U1」で識別されるユーザ(ユーザU1)は、図1に示すユーザU1に対応する。また、属性情報「属性情報#1」は、ユーザU1の属性情報を示す。また、傾向情報「傾向情報#1」は、ユーザU1の傾向情報を示す。
(発話情報記憶部122)
発話情報記憶部122は、ユーザによる発話に関する各種情報を記憶する。図4を用いて、実施形態に係る発話情報記憶部の一例について説明する。図4は、実施形態に係る発話情報記憶部の一例を示す図である。図4に示す例では、発話情報記憶部122は、「発話ID」、「音声情報」、「発話情報」といった項目を有する。
「発話ID」は、ユーザによる発話を識別するための識別情報を示す。「音声情報」は、ユーザによる発話の音声に関する情報を示す。具体的には、「音声情報」には、マイクロフォン等の集音手段である検知部150によって検知されたユーザによる発話の音声に関する情報が格納される。「発話情報」は、ユーザによる発話に関する情報を示す。また、「発話情報」は、さらに「文字情報」、「ローマ字表記」といった小項目を有する。「文字情報」は、ユーザによる発話が漢字仮名交じり表記に変換された文字情報(漢字仮名交じり文字情報)を示す。また、「ローマ字表記」は、ユーザによる発話がローマ字変換された文字情報(ローマ字情報)を示す。
図4の1レコード目に示す例では、発話ID「PA1」で識別される発話(発話PA1)は、図1に示す発話PA1に対応する。また、音声情報「音声情報#1」は、発話PA1の音声に関する情報を示す。また、文字情報「とりしよう」は、発話PA1が漢字仮名交じり表記に変換された文字情報(漢字仮名交じり文字情報)を示す。また、ローマ字表記「torishiyou」は、発話PA1がローマ字変換された文字情報(ローマ字情報)を示す。
(モデル情報記憶部123)
モデル情報記憶部123は、モデルに関する各種情報を記憶する。図5を用いて、実施形態に係るモデル情報記憶部の一例について説明する。図5は、実施形態に係るモデル情報記憶部の一例を示す図である。図5に示す例では、モデル情報記憶部123は、「モデルID」、「モデルデータ」、「種別」といった項目を有する。
「モデルID」は、モデルを識別するための識別情報を示す。「モデルデータ」は、モデルのモデルデータを示す。例えば、「モデルデータ」には、入力された発話情報に欠損部分がある可能性を示すスコアを出力するためのデータが格納される。また、「モデルデータ」には、入力された発話情報に欠損部分がある場合、発話情報の欠損部分を補完する補完情報と発話情報とからなる補完後発話情報を出力するためのデータが格納される。「種別」は、モデルの種別を示す。具体的には、種別「判定」は、モデルの種別が判定モデルであることを示す。また、種別「補完」は、モデルの種別が補完モデルであることを示す。
図5の1レコード目に示す例では、モデルID「M11」で識別されるモデル(判定モデルM11)は、図1に示す判定モデルM11に対応する。モデルデータ「MDT11」は、判定モデルM11のモデルデータを示す。
図5の2レコード目に示す例では、モデルID「M21」で識別されるモデル(補完モデルM21)は、図1に示す補完モデルM21に対応する。モデルデータ「MDT21」は、補完モデルM21のモデルデータを示す。
(判定学習データ記憶部124)
判定学習データ記憶部124は、判定モデルの学習データに関する各種情報を記憶する。図6を用いて、実施形態に係る判定学習データ記憶部の一例について説明する。図6は、実施形態に係る判定学習データ記憶部の一例を示す図である。図6に示す例では、判定学習データ記憶部124は、「判定学習データID」、「発話情報」、「正解ラベル(欠損有:1、欠損無:0)」といった項目を有する。
「判定学習データID」は、判定モデルの学習データを識別するための識別情報を示す。判定モデルの学習データは、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベルの各々との組合せである。「発話情報」は、ユーザによる発話に関する情報を示す。「発話情報」は、さらに「文字情報」、「ローマ字表記」といった小項目を有する。「文字情報」は、発話情報が漢字仮名交じり表記に変換された文字情報(漢字仮名交じり文字情報)を示す。また、「ローマ字表記」は、発話情報がローマ字変換された文字情報(ローマ字情報)を示す。「正解ラベル(欠損有:1、欠損無:0)」は、発話情報の欠損部分の有無を示す。正解ラベル「1」は、発話情報に欠損部分が有ることを示す。正解ラベル「0」は、発話情報に欠損部分が無いことを示す。
なお、図6では、発話情報として漢字仮名交じり文字情報とローマ字情報の2種類の文字情報が記憶される例を示すが、判定モデルM11の学習にはローマ字情報のみが用いられる。
(補完学習データ記憶部125)
補完学習データ記憶部125は、補完モデルの学習データに関する各種情報を記憶する。図7を用いて、実施形態に係る補完学習データ記憶部の一例について説明する。図7は、実施形態に係る補完学習データ記憶部の一例を示す図である。図7に示す例では、補完学習データ記憶部125は、「補完学習データID」、「欠損発話情報」、「正解発話情報」といった項目を有する。
「補完学習データID」は、補完モデルの学習データを識別するための識別情報を示す。補完モデルの学習データは、欠損部分がある欠損発話情報と、欠損発話情報に対応する欠損部分がない正解発話情報との組合せから成る。「欠損発話情報」は、欠損部分がある発話情報を示す。「欠損発話情報」は、さらに「文字情報」、「ローマ字表記」といった小項目を有する。「文字情報」は、欠損発話情報が漢字仮名交じり表記に変換された文字情報(漢字仮名交じり文字情報)を示す。また、「ローマ字表記」は、欠損発話情報がローマ字変換された文字情報(ローマ字情報)を示す。「正解発話情報」は、欠損発話情報に対応する欠損部分がない発話情報を示す。「正解発話情報」は、さらに「文字情報」、「ローマ字表記」といった小項目を有する。「文字情報」は、正解発話情報が漢字仮名交じり表記に変換された文字情報(漢字仮名交じり文字情報)を示す。また、「ローマ字表記」は、正解発話情報がローマ字変換された文字情報(ローマ字情報)を示す。
なお、図7では、欠損発話情報として漢字仮名交じり文字情報とローマ字情報の2種類の文字情報が記憶される例を示すが、補完モデルM21の学習にはローマ字情報のみが用いられる。また、正解発話情報として漢字仮名交じり文字情報とローマ字情報の2種類の文字情報が記憶される例を示すが、補完モデルM21の学習にはローマ字情報のみが用いられる。
(入力部130)
入力部130は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部130は、キーボードやマウスや操作キー等によって実現される。また、入力部130は、音声入力を行う装置(例えばマイク)であってもよい。
(出力部140)
出力部140は、各種情報を表示するための表示装置である。例えば、出力部140は、液晶ディスプレイ等によって実現される。なお、端末装置100にタッチパネルが採用される場合には、入力部130と出力部140とは一体化される。また、以下の説明では、出力部140を画面と記載する場合がある。また、出力部140は、音声出力を行う装置(例えばスピーカー)であってもよい。例えば、出力部140は、出力制御部164から発話に対する応答に対応する音声情報を取得する。続いて、出力部140は、応答に対応する音声情報を取得すると、取得した音声情報を音声により出力する。
(検知部150)
検知部150は、端末装置100に関する各種情報を検知する。具体的には、検知部150は、ユーザが発する音声や、端末装置100の周囲の環境音を検知する。例えば、検知部150は、マイクロフォン等の集音手段であり、音が入力された場合に、その音を音情報として取得する。
(制御部160)
制御部160は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、端末装置100内部の記憶装置に記憶されている各種プログラム(生成プログラム又は判定プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。例えば、この各種プログラムは、ウェブブラウザと呼ばれるアプリケーションプログラムに該当する。また、制御部160は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図2に示すように、制御部160は、取得部161と、判定部162と、生成部163と、出力制御部164と、学習部165とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部160の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(取得部161)
取得部161は、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得する。取得部161は、発話がローマ字変換された文字情報を発話情報として取得する。具体的には、取得部161は、検知部150によってユーザの発話が検知されると、検知部150によって検知されたユーザの発話に関する音声を取得する。続いて、取得部161は、音声を取得すると、取得した音声を音波に変換する。続いて、取得部161は、音声を音波に変換すると、音波から音素を特定する。続いて、取得部161は、音波から音素を特定すると、特定した音素の並びをローマ字に変換する。続いて、取得部161は、音素の並びをローマ字に変換すると、変換されたローマ字情報を発話情報として取得する。なお、取得部161は、発話情報を取得すると、取得した発話情報を音声情報と対応付けて発話情報記憶部122に格納する。
図1に示す例では、取得部161は、検知部150によってユーザU1の発話PA1が検知されると、検知部150によって検知されたユーザU1の発話PA1に関する音声(音声情報#1)を取得する。続いて、取得部161は、音声(音声情報#1)を取得すると、取得した音声(音声情報#1)を音波に変換する。続いて、取得部161は、音声を音波に変換すると、音波から音素を特定する。続いて、取得部161は、音波から音素を特定すると、特定した音素の並びをローマ字に変換する。続いて、取得部161は、音素の並びをローマ字に変換すると、変換されたローマ字情報「torishiyou」を発話情報IN1として取得する。
また、取得部161は、音波から音素を特定すると、予め登録された日本語の辞書を参照して、特定した音素の並びを漢字仮名交じり文字に変換する。続いて、取得部161は、音素の並びを漢字仮名交じり文字に変換すると、変換された漢字仮名交じり文字情報を発話情報として取得する。続いて、取得部161は、発話情報を取得すると、取得した発話情報を音声情報と対応付けて発話情報記憶部122に格納する。
図1に示す例では、取得部161は、検知部150によってユーザU1の発話PA1が検知されると、検知部150によって検知されたユーザU1の発話PA1に関する音声(音声情報#1)を取得する。続いて、取得部161は、音声(音声情報#1)を取得すると、取得した音声(音声情報#1)を音波に変換する。続いて、取得部161は、音声を音波に変換すると、音波から音素を特定する。続いて、取得部161は、音波から音素を特定すると、特定した音素の並びを漢字仮名交じり文字に変換する。続いて、取得部161は、音素の並びを漢字仮名交じり文字に変換すると、変換された漢字仮名交じり文字情報「とりしよう」を発話情報IN1として取得する。
また、取得部161は、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルを取得する。取得部161は、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベルの各々との組合せに基づいて、学習された判定モデルを取得する。取得部161は、学習部165により学習された判定モデルを取得する。具体的には、取得部161は、検知部150によってユーザの発話が検知されると、モデル情報記憶部123の「種別」の項目を参照して、判定モデル(のモデルデータ)を取得する。
図1に示す例では、取得部161は、検知部150によってユーザU1の発話PA1が検知されると、モデル情報記憶部123の「種別」の項目を参照して、判定モデルM11(のモデルデータMDT11)を取得する。
また、取得部161は、ユーザによる発話に関する発話情報と、発話の欠損の補完に用いる補完モデルとを取得する。取得部161は、発話がローマ字変換された文字情報を発話情報として取得する。具体的には、取得部161は、判定部162によって発話情報に欠損部分が有ると判定されると、発話情報を取得する。例えば、取得部161は、発話情報記憶部122を参照して、判定部162によって欠損部分が有ると判定された発話の発話IDに対応する発話情報のローマ字情報を取得する。
図1に示す例では、取得部161は、判定部162によって発話情報IN1「torishiyou」(とりしよう)に欠損DC1が有ると判定されると、発話情報記憶部122を参照して、判定部162によって欠損DC1が有ると判定された発話PA1の発話ID「PA1」に対応する発話情報のローマ字情報「torishiyou」を取得する。
また、取得部161は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルを取得する。また、取得部161は、欠損部分がある欠損発話情報と、欠損発話情報に対応する欠損部分がない正解発話情報との組合せに基づいて、学習された補完モデルを取得する。取得部161は、学習部165により学習された補完モデルを取得する。具体的には、取得部161は、判定部162によって発話情報に欠損部分が有ると判定されると、モデル情報記憶部123の「種別」の項目を参照して、補完モデル(のモデルデータ)を取得する。
図1に示す例では、取得部161は、判定部162によって発話情報IN1「torishiyou」(とりしよう)に欠損DC1が有ると判定されると、モデル情報記憶部123の「種別」の項目を参照して、補完モデルM21(のモデルデータMDT21)を取得する。
(判定部162)
判定部162は、取得部161により取得された発話情報と判定モデルとに基づいて、発話情報の欠損部分の有無を判定する。判定部162は、発話情報の先頭または末尾の少なくとも一方の欠損部分の有無を判定する。具体的には、判定部162は、発話情報を判定モデルに入力することにより判定モデルが出力するスコアに基づいて、欠損部分の有無を判定する。より具体的には、判定部162は、判定モデルが出力するスコアと所定の閾値との比較に基づいて、欠損部分の有無を判定する。
判定部162は、上述したロジスティック回帰モデル等、発生確率を予測するために用いられるモデルであって、任意の構造を有する判定モデルを用いて、発話情報に欠損部分がある可能性を示すスコアの算出を行う。具体的には、判定モデルは、発話情報に対応する数値(例えば、ベクトル)が入力された場合に、発話情報に欠損部分がある可能性を示すスコアを出力するように係数が設定される。判定部162は、このような判定モデルを用いて、発話情報に欠損部分がある可能性を示すスコアを算出する。
図1に示す例では、判定部162は、取得部161によって発話情報IN1と判定モデルM11とが取得されると、取得部161によって取得された発話情報IN1「torishiyou」を取得部161によって取得された判定モデルM11に入力する。続いて、判定部162は、発話情報IN1「torishiyou」を判定モデルM11に入力することにより、入力された発話情報IN1「torishiyou」に欠損部分がある可能性を示すスコアSC1「0.8」を判定モデルM11から出力する。続いて、判定部162は、スコアSC1「0.8」を判定モデルM11から出力すると、判定モデルM11が出力したスコアSC1「0.8」と所定の閾値TH1「0.75」との比較に基づいて、発話情報IN1「torishiyou」に欠損部分が有るか無いかを判定する。図1では、判定部162は、判定モデルM11が出力したスコアSC1「0.8」が所定の閾値TH1「0.75」を超えるので、判定モデルM11に入力された発話情報IN1「torishiyou」(とりしよう)に欠損DC1が有ると判定する。
(生成部163)
生成部163は、取得部161により取得された発話情報と補完モデルとに基づいて、発話情報の欠損部分を補完する補完情報を生成する。具体的には、生成部163は、発話情報の先頭または末尾の少なくとも一方の欠損部分を補完する補完情報を生成する。より具体的には、生成部163は、発話情報を補完モデルに入力することにより発話情報と補完情報とからなる補完後発話情報を生成する。
生成部163は、上述した回帰モデルやニューラルネットワーク等、任意の構造を有する補完モデルを用いて、補完後発話情報に対応する数値(例えば、ベクトル)の算出を行う。具体的には、補完モデルM21は、発話情報に対応する数値(例えば、ベクトル)が入力された場合に、補完後発話情報に対応する数値(例えば、ベクトル)を出力するように係数が設定される。生成部163は、このような補完モデルM21を用いて、補完後発話情報に対応する数値(例えば、ベクトル)を算出する。
図1に示す例では、生成部163は、取得部161によって発話情報IN1と補完モデルM21とが取得されると、取得部161によって取得された発話情報IN1「torishiyou」を取得部161によって取得された補完モデルM21に入力する。続いて、生成部163は、発話情報IN1「torishiyou」を補完モデルM21に入力することにより、欠損部分に対応する補完情報「shiri」と発話情報IN1「torishiyou」とからなる補完後発話情報CT1「shiritorishiyou」を補完モデルM21から出力する。生成部163は、補完後発話情報CT1「shiritorishiyou」を補完モデルM21から出力することにより、補完後発話情報CT1「shiritorishiyou」を生成する。
(出力制御部164)
出力制御部164は、端末装置100が有する出力機能を用いて、入力部130により入力を受け付けられたユーザによる発話に関する発話情報に応じた応答に対応する音を端末装置100から出力させる。また、出力制御部164は、生成部163によって補完後発話情報が生成された場合は、生成部163によって生成された補完後発話情報に応じた応答に対応する音を端末装置100から出力させる。
図1に示す例では、出力制御部164は、生成部163によって補完後発話情報CT1「shiritorishiyou」が生成されると、生成部163によって生成された補完後発話情報CT1「shiritorishiyou」に基づいて発話PA1に対する応答コンテンツを生成する。例えば、出力制御部164は、補完後発話情報CT1「shiritorishiyou」(しりとりしよう)に基づいて、ユーザU1からしりとりの開始要求を受け付けたと判定する。出力制御部164は、ユーザU1から受け付けたしりとりの開始要求に応じて、しりとりの開始要求に対する応答に対応する音声情報を生成する。例えば、出力制御部164は、「それでは、まずは「スイカ」。」という日本語に対応する音声情報を生成する。例えば、出力制御部164は、応答に対応する音声情報を生成すると、生成した音声情報を出力部140に出力する。
(学習部165)
学習部165は、複数の発話情報の各々と正解ラベルの各々との組合せである学習データに基づいて、判定モデルを学習する。具体的には、学習部165は、過去の発話履歴の複数の発話情報の各々と、正解ラベルの各々との組合せである学習データに基づいて、判定モデルを学習する。より具体的には、学習部165は、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベル(欠損部分が無い場合は「0」、欠損部分が有る場合は「1」)の各々との組合せである判定学習データに基づいて、判定モデルを学習する。
例えば、学習部165は、判定学習データ記憶部124を参照して、先頭の子音「r」の欠損が有る発話情報「ensougeemu」(演奏ゲーム)と正解ラベル「1」との組合せである判定学習データSDT11を取得する。続いて、学習部165は、取得した判定学習データSDT11に基づいて、入力情報として発話情報「ensougeemu」(演奏ゲーム)が入力された場合には、出力情報として正解ラベル「1」を出力するよう判定モデルM11を学習する。
また、学習部165は、判定学習データ記憶部124を参照して、末尾に「ddo」の欠損が有る発話情報「katapa」(かたぱ)と正解ラベル「1」との組合せである判定学習データSDT12を取得する。続いて、学習部165は、取得した判定学習データSDT12に基づいて、入力情報として発話情報「katapa」(かたぱ)が入力された場合には、出力情報として正解ラベル「1」を出力するよう判定モデルM11を学習する。
また、学習部165は、判定学習データ記憶部124を参照して、欠損部分が無い発話情報「toukyounotenki」(東京の天気)と正解ラベル「0」との組合せである判定学習データSDT13を取得する。続いて、学習部165は、取得した判定学習データSDT13に基づいて、入力情報として発話情報「toukyounotenki」(東京の天気)が入力された場合には、出力情報として正解ラベル「0」を出力するよう判定モデルM11を学習する。
そして、学習部165は、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルM11を生成する。例えば、学習部165は、発話情報「torishiyou」(とりしよう)を入力とし、入力された発話情報「torishiyou」(とりしよう)に欠損部分がある可能性を示すスコア「0.8」を出力する判定モデルM11を生成する。学習部165は、判定モデルM11を生成すると、生成した判定モデルM11をモデル情報記憶部123に格納する。
なお、学習部165は、いかなる学習アルゴリズムを用いて判定モデルM11を生成してもよい。例えば、学習部165は、ニューラルネットワーク(neural network)、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて判定モデルM11を生成する。一例として、学習部165がニューラルネットワークを用いて判定モデルM11を生成する場合、判定モデルM11は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
判定モデルM11は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に応じて、発話情報に欠損部分がある可能性を示すスコアを出力層から出力するよう、コンピュータを機能させる。
判定モデルM11は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、発話情報に欠損部分がある可能性を示すスコアを出力層から出力するよう、コンピュータを機能させる。
ここで、判定モデルM11が「y=1/(1+exp(-t))、t=a0+a1*x1+a2*x2+・・・+ai*xi」で示すロジスティック回帰モデルで実現されるとする。この場合、判定モデルM11が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。ここで、入力データ(xi)は発話情報である。また、yは発話情報に欠損部分がある可能性を示すスコアである予測確率(0~1の値)である。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、ロジスティック回帰モデルは、標準シグモイド関数σを用いると「y=σ(t)=σ(a1*x1+a2*x2+・・・+ai*xi)」のように表せる。したがって、ロジスティック回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。なお、ロジスティック回帰では、最尤法によりパラメータ(係数ai)を推定する。具体的には、最尤法では、モデルのパラメータ(係数ai)を推定する尤度関数を導出する。そして、負の対数尤度関数が最小になるように反復解法を繰り返すことにより、パラメータ(係数ai)を推定する。
学習部165は、欠損発話情報と正解発話情報との組合せを含む学習データに基づいて補完モデルを学習する。具体的には、学習部165は、過去の発話履歴の欠損発話情報と正解発話情報との組合せを含む学習データに基づいて、補完モデルを学習する。より具体的には、学習部165は、欠損部分がある欠損発話情報と、欠損発話情報に対応する欠損部分がない正解発話情報との組合せを含む補完学習データに基づいて補完モデルを学習する。
例えば、学習部165は、補完学習データ記憶部125を参照して、先頭の子音「r」の欠損が有る欠損発話情報「ensougeemu」(演奏ゲーム)と欠損発話情報に対応する欠損部分がない正解発話情報「rensougeemu」(連想ゲーム)との組合せである補完学習データSDT21を取得する。続いて、学習部165は、取得した補完学習データSDT21に基づいて、入力情報として欠損発話情報「ensougeemu」(演奏ゲーム)が入力された場合には、出力情報として正解発話情報「rensougeemu」(連想ゲーム)を出力するよう補完モデルM21を学習する。
また、学習部165は、補完学習データ記憶部125を参照して、末尾に「ddo」の欠損が有る欠損発話情報「katapa」(かたぱ)と欠損発話情報に対応する欠損部分がない正解発話情報「katapaddo」(肩パッド)との組合せである補完学習データSDT22を取得する。続いて、学習部165は、取得した補完学習データSDT22に基づいて、入力情報として欠損発話情報「katapa」(かたぱ)が入力された場合には、出力情報として正解発話情報「katapaddo」(肩パッド)を出力するよう補完モデルM21を学習する。
また、学習部165は、補完学習データ記憶部125を参照して、欠損部分がある欠損発話情報「notenki」(の天気)と欠損発話情報に対応する欠損部分がない正解発話情報「toukyounotenki」(東京の天気)との組合せである補完学習データSDT23を取得する。続いて、学習部165は、取得した補完学習データSDT23に基づいて、入力情報として欠損発話情報「notenki」(の天気)が入力された場合には、出力情報として正解発話情報「toukyounotenki」(東京の天気)を出力するよう補完モデルM21を学習する。
そして、学習部165は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルM21を生成する。例えば、学習部165は、発話情報「torishiyou」(とりしよう)を入力とし、入力された発話情報に欠損部分がある場合、補完情報「shiri」(しり)と発話情報「torishiyou」(とりしよう)とからなる補完後発話情報「shiritorishiyou」(しりとりしよう)を出力する補完モデルM21を生成する。学習部165は、補完モデルM21を生成すると、生成した補完モデルM21をモデル情報記憶部123に格納する。
次に、図8を用いて、実施形態に係る補完モデルM21の一例について説明する。図8に、実施形態に係る補完モデルの一例を示す。図8では、補完モデルM21がSeq2Seq(Sequence to Sequence Model)である例について説明する。Seq2Seqは、語句の並び(文字列)を入力して、別の語句の並び(文字列)を出力するルールを学習するモデルである。具体的には、Seq2Seqは、RNN(Recurrent Neural Network)の一種であるLSTM(Long Short Term Memory)を構成要素とするEncoder-Decoderモデルである。
図8に示す例では、「ABC」という文字列を入力して、「WXYZ」という文字列を出力する例を示す。図1に示す例に当てはめると、「ABC」は、欠損部分がある発話情報IN1「torishiyou」(とりしよう)である。また、「WXYZ」は、欠損部分がない補完後発話情報CT1「shiritorishiyou」(しりとりしよう)である。このような「ABC」(欠損部分がある発話情報)と「WXYZ」(欠損部分がない発話情報)の組があった場合、Seq2Seqである補完モデルM21は、図8の「ABC」が入力されているEncoder側で「ABC」をベクトル化し、図8の「WXYZ」が出力されているDecoder側で「WXYZ」を生成するようにRNNの学習を行う。
なお、学習部165は、いかなる学習アルゴリズムを用いて補完モデルM21を生成してもよい。例えば、学習部165は、ニューラルネットワーク(neural network)、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて補完モデルM21を生成する。一例として、学習部165がニューラルネットワークを用いて補完モデルM21を生成する場合、補完モデルM21は、一以上のニューロンを含む入力層と、一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
補完モデルM21は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に応じて、補完後発話情報を出力層から出力するよう、コンピュータを機能させる。
補完モデルM21は、発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、補完後発話情報を出力層から出力するよう、コンピュータを機能させる。
ここで、補完モデルM21が「y=a1*x1+a2*x2+・・・+ai*xi」で示す回帰モデルで実現されるとする。この場合、補完モデルM21が含む第1要素は、x1やx2等といった入力データ(xi)に対応する。また、第1要素の重みは、xiに対応する係数aiに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンと見做すことができる。各モデルを単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。
また、補完モデルM21がDNN(Deep Neural Network)等、1つまたは複数の中間層を有するニューラルネットワークで実現されるとする。この場合、補完モデルM21が含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
また、学習部165がGANを用いた算出処理を行う場合、補完モデルM21は、GANの一部を構成するモデルであってもよい。
〔4.判定処理のフロー〕
次に、図9を用いて、実施形態に係る判定処理の手順について説明する。図9は、実施形態に係る判定処理手順を示すフローチャートである。図9に示す例では、端末装置100は、ユーザによる発話を検知したか否かを判定する(ステップS101)。端末装置100は、ユーザによる発話を検知していないと判定した場合(ステップS101;No)、処理を終了する。
一方、端末装置100は、ユーザによる発話を検知したと判定した場合(ステップS101;Yes)、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得する(ステップS102)。端末装置100は、発話情報と判定モデルとを取得すると、判定モデルを用いて、発話情報に欠損部分がある可能性を示すスコアを出力する(ステップS103)。
続いて、端末装置100は、スコアを出力すると、スコアが所定の閾値を超えるか否かを判定する(ステップS104)。端末装置100は、スコアが所定の閾値を超えると判定した場合(ステップS104;Yes)、発話情報に欠損部分が有ると判定する(ステップS105)。一方、端末装置100は、スコアが所定の閾値を超えないと判定した場合(ステップS104;No)、発話情報に欠損部分が無いと判定する(ステップS106)。
〔5.生成処理のフロー〕
次に、図10を用いて、実施形態に係る生成処理の手順について説明する。図10は、実施形態に係る生成処理手順を示すフローチャートである。図10に示す例では、端末装置100は、ユーザによる発話に関する発話情報と、発話の欠損の補完に用いる補完モデルとを取得する(ステップS201)。端末装置100は、発話情報と補完モデルとを取得すると、補完モデルを用いて、発話情報の欠損部分を補完する補完情報を生成する(ステップS202)。
〔6.変形例〕
上述した実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。
〔6-1.その他の発話情報〕
図1では、発話情報がローマ字情報である例について説明したが、発話情報はローマ字情報に限られない。ここでは、その他の発話情報の例について説明する。
〔6-1-1.音声記号〕
取得部161は、発話が音声文字変換された所定の音声記号である文字情報を発話情報として取得する。具体的には、取得部161は、発話が音声文字変換された国際音声記号(International Phonetic Alphabet)である文字情報を発話情報として取得する。より具体的には、取得部161は、検知部150によってユーザの発話が検知されると、検知部150によって検知されたユーザの発話に関する音声を取得する。続いて、取得部161は、音声を取得すると、取得した音声を音波に変換する。続いて、取得部161は、音声を音波に変換すると、音波から音素を特定する。続いて、取得部161は、音波から音素を特定すると、特定した音素の並びを国際音声記号に変換する。続いて、取得部161は、音素の並びを国際音声記号に変換すると、変換された国際音声記号を発話情報として取得する。
また、図6に示す判定学習データ記憶部124の「発話情報」の項目には、発話情報として各発話が音声文字変換された国際音声記号が格納される。また、学習部165は、国際音声記号である発話情報に基づいて判定モデルを学習する。
また、図7に示す補完学習データ記憶部125の「欠損発話情報」の項目には、欠損発話情報が音声文字変換された国際音声記号が格納される。また、図7に示す補完学習データ記憶部125の「正解発話情報」の項目には、正解発話情報が音声文字変換された国際音声記号が格納される。また、学習部165は、国際音声記号である発話情報に基づいて補完モデルを学習する。
〔6-1-2.漢字仮名交じり文字情報〕
取得部161は、発話が変換された文字情報を発話情報として取得する。具体的には、取得部161は、発話情報記憶部122の「文字情報」の項目を参照して、発話が漢字仮名交じり文字に変換された漢字仮名交じり文字情報を発話情報として取得する。
また、学習部165は、漢字仮名交じり文字情報である発話情報に基づいて判定モデルを学習する。また、学習部165は、漢字仮名交じり文字情報である発話情報に基づいて補完モデルを学習する。
〔6-2.先頭欠損判定モデルと末尾欠損判定モデル〕
図1では、先頭欠損であるか末尾欠損であるか否かに関わらず、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルM11の例について説明したが、先頭欠損判定用の判定モデルと末尾欠損判定用の判定モデルとを分けてもよい。具体的には、学習部165は、先頭欠損の有無を判定する判定モデルM12(先頭欠損判定モデル)と末尾欠損の有無を判定する判定モデルM13(末尾欠損判定モデル)とをそれぞれ学習してもよい。
例えば、学習部165は、発話情報を入力とし、入力された発話情報に先頭部分の欠損である先頭欠損がある可能性を示すスコアを出力する判定モデルM12を生成する。判定部162は、発話情報を判定モデルに入力することにより判定モデルM12が出力するスコアに基づいて、先頭欠損部分の有無を判定する。より具体的には、判定部162は、判定モデルM12が出力するスコアと所定の閾値との比較に基づいて、先頭欠損部分の有無を判定する。
また、学習部165は、発話情報を入力とし、入力された発話情報に末尾部分の欠損である末尾欠損がある可能性を示すスコアを出力する判定モデルM13を生成する。判定部162は、発話情報を判定モデルに入力することにより判定モデルM13が出力するスコアに基づいて、末尾欠損部分の有無を判定する。より具体的には、判定部162は、判定モデルM13が出力するスコアと所定の閾値との比較に基づいて、末尾欠損部分の有無を判定する。
なお、学習部165は、発話情報を入力とし、入力された発話情報に先頭欠損がある可能性を示す第1スコアと、入力された発話情報に末尾欠損がある可能性を示す第2スコアと、入力された発話情報に先頭欠損と末尾欠損の両方の欠損がある可能性を示す第3スコアとを出力する判定モデルM14を生成してもよい。判定部162は、発話情報を判定モデルに入力することにより判定モデルM14が出力する第1スコアに基づいて、先頭欠損部分の有無を判定する。より具体的には、判定部162は、判定モデルM14が出力する第1スコアと所定の閾値(第1閾値)との比較に基づいて、先頭欠損部分の有無を判定する。また、判定部162は、発話情報を判定モデルに入力することにより判定モデルM14が出力する第2スコアに基づいて、末尾欠損部分の有無を判定する。より具体的には、判定部162は、判定モデルM14が出力する第2スコアと所定の閾値(第2閾値)との比較に基づいて、末尾欠損部分の有無を判定する。また、判定部162は、発話情報を判定モデルに入力することにより判定モデルM14が出力する第3スコアに基づいて、先頭と末尾の両方の欠損部分の有無を判定する。より具体的には、判定部162は、判定モデルM14が出力する第3スコアと所定の閾値(第3閾値)との比較に基づいて、先頭と末尾の両方の欠損部分の有無を判定する。
〔6-3.その他の補完モデル〕
図1では、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルM21について説明したが、補完モデルは補完モデルM21に限られない。ここでは、その他の補完モデルの例について説明する。
〔6-3-1.補完情報を出力する補完モデル〕
学習部165は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、補完情報を出力する補完モデルM22を生成する。具体的には、学習部165は、入力情報として欠損発話情報が入力された場合には、出力情報として、欠損発話情報の欠損位置を示す所定の記号(例えば、「,」(カンマ))を欠損発話情報と補完情報との間に配置した情報を出力するよう補完モデルM22を学習する。以下では、発話の先頭が欠損している欠損発話情報の欠損部分に対応する補完情報のことを「先頭補完情報」と記載する。また、発話の末尾が欠損している欠損発話情報の欠損部分に対応する補完情報のことを「末尾補完情報」と記載する。また、欠損発話情報の欠損位置を示す所定の記号は、どのような記号であってもよい。例えば、欠損発話情報の欠損位置を示す所定の記号は、デリミタ(区切り文字)として一般的に使用される記号(「,」(カンマ)、タブ、「 」(スペース)等))であってもよい。以下では、欠損発話情報の欠損位置を示す所定の記号が「,」(カンマ)である例について説明する。
例えば、学習部165は、補完学習データ記憶部125を参照して、先頭の子音「r」の欠損が有る欠損発話情報「ensougeemu」(演奏ゲーム)と欠損発話情報に対応する欠損部分がない正解発話情報「rensougeemu」(連想ゲーム)との組合せである補完学習データSDT21を取得する。続いて、学習部165は、取得した補完学習データに基づいて、入力情報として欠損発話情報「ensougeemu」(演奏ゲーム)が入力された場合には、出力情報として、欠損発話情報の欠損位置を示す所定の記号(例えば、「,」(カンマ))を先頭補完情報「r」と欠損発話情報「ensougeemu」との間に配置した「r,ensougeemu」を出力するよう補完モデルM22を学習する。
また、学習部165は、補完学習データ記憶部125を参照して、末尾に「ddo」の欠損が有る欠損発話情報「katapa」(かたぱ)と欠損発話情報に対応する欠損部分がない正解発話情報「katapaddo」(肩パッド)との組合せである補完学習データSDT22を取得する。続いて、学習部165は、取得した補完学習データに基づいて、入力情報として欠損発話情報「katapa」(かたぱ)が入力された場合には、出力情報として、欠損発話情報の欠損位置を示す所定の記号(例えば、「,」(カンマ))を欠損発話情報「katapa」と末尾補完情報「ddo」との間に配置した「katapa,ddo」を出力するよう補完モデルM22を学習する。
そして、学習部165は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、補完情報を出力する補完モデルM22を生成する。例えば、学習部165は、先頭に欠損がある欠損発話情報「torishiyou」(とりしよう)を入力とし、欠損発話情報の欠損位置を示す所定の記号(例えば、「,」(カンマ))を先頭補完情報「shiri」と欠損発話情報「torishiyou」との間に配置した「shiri,torishiyou」を出力する補完モデルM22を生成する。学習部165は、補完モデルM22を生成すると、生成した補完モデルM22をモデル情報記憶部123に格納する。このように、補完モデルM22は、欠損発話情報の欠損位置を示す所定の記号(例えば、「,」(カンマ))を欠損発話情報と補完情報との間に配置した情報を出力する。続いて、学習部165は、補完モデルM22が出力した情報を所定の記号(例えば、「,」(カンマ))の前後で分離することにより、先頭補完情報又は末尾補完情報を取得することができる。具体的には、学習部165は、補完モデルM22に入力された欠損発話情報と、補完モデルM22から出力された情報とを比較することにより、先頭補完情報又は末尾補完情報として取得する。例えば、学習部165は、所定の記号(例えば、「,」(カンマ))で分離された情報のうち、補完モデルM22に入力された欠損発話情報と一致しない方の情報を、先頭補完情報又は末尾補完情報として取得する。図1に示す例では、学習部165は、補完モデルM22に入力された欠損発話情報「torishiyou」と、補完モデルM22から出力された情報「shiri,torishiyou」とを比較することにより、先頭補完情報「shiri」を取得する。例えば、学習部165は、所定の記号(例えば、「,」(カンマ))で分離された情報「shiri,torishiyou」のうち、補完モデルM22に入力された欠損発話情報「torishiyou」と一致しない方の情報「shiri」を、先頭補完情報として取得する。
〔6-3-2.完全発話情報を入出力する補完モデル〕
学習部165は、欠損部分が無い発話情報である完全発話情報が入力された場合は、完全発話情報を補完後発話情報として出力する補完モデルM23を生成する。具体的には、学習部165は、欠損部分が無い完全発話情報と、完全発話情報である正解発話情報との組合せを含む学習データに基づいて、補完モデルM23を学習する。例えば、学習部165は、欠損部分が無い完全発話情報「toukyounotenki」(東京の天気)と完全発話情報である正解発話情報「toukyounotenki」(東京の天気)との組合せである補完学習データを取得する。続いて、学習部165は、取得した補完学習データに基づいて、入力情報として完全発話情報「toukyounotenki」(東京の天気)が入力された場合には、出力情報として完全発話情報「toukyounotenki」(東京の天気)を出力するよう補完モデルM23を学習する。
そして、学習部165は、完全発話情報を入力とし、完全発話情報を出力する補完モデルM23を生成する。例えば、学習部165は、完全発話情報「shiritorishiyou」(しりとりしよう)を入力とし、完全発話情報「shiritorishiyou」(しりとりしよう)を出力する補完モデルM23を生成する。
また、学習部165は、欠損部分が無い発話情報である完全発話情報が入力された場合は、入力された発話情報に欠損部分が無いことを示す記号(例えば、「#」)を出力する補完モデルM24を生成する。具体的には、学習部165は、欠損部分が無い完全発話情報と、入力された発話情報に欠損部分が無いことを示す記号(例えば、「#」)との組合せを含む学習データに基づいて、補完モデルM24を学習する。例えば、学習部165は、欠損部分が無い完全発話情報「toukyounotenki」(東京の天気)と入力された発話情報に欠損部分が無いことを示す記号(例えば、「#」)との組合せである補完学習データを取得する。続いて、学習部165は、取得した補完学習データに基づいて、入力情報として完全発話情報「toukyounotenki」(東京の天気)が入力された場合には、出力情報として入力された発話情報に欠損部分が無いことを示す記号(例えば、「#」)を出力するよう補完モデルM24を学習する。
そして、学習部165は、完全発話情報を入力とし、完全発話情報を出力する補完モデルM24を生成する。例えば、学習部165は、完全発話情報「shiritorishiyou」(しりとりしよう)を入力とし、入力された発話情報に欠損部分が無いことを示す記号(例えば、「#」)を出力する補完モデルM24を生成する。
なお、学習部165は、欠損部分が無い発話情報である完全発話情報が入力された場合は、入力された発話情報に欠損部分が無いことを示す文字(例えば、「NULL」、「C」等)の文字情報を出力する補完モデルM25を生成してもよい。
〔6-3-3.先頭欠損補完モデルと末尾欠損補完モデル〕
図1では、先頭欠損であるか末尾欠損であるか否かに関わらず、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルM21の例について説明したが、先頭欠損補完用の補完モデルと末尾欠損補完用の補完モデルとを分けてもよい。具体的には、学習部165は、先頭欠損を補完する補完モデルM26(先頭欠損補完モデル)と末尾欠損を補完する補完モデルM27(末尾欠損補完モデル)とをそれぞれ学習してもよい。
例えば、学習部165は、入力された発話情報の先頭に欠損部分がある場合、発話情報と先頭の欠損部分を補完する先頭補完情報とからなる先頭補完後発話情報を出力する補完モデルM26を生成する。生成部163は、発話情報を補完モデルに入力することにより先頭補完後発話情報を生成する。
例えば、学習部165は、入力された発話情報の末尾に欠損部分がある場合、発話情報と末尾の欠損部分を補完する末尾補完情報とからなる末尾補完後発話情報を出力する補完モデルM27を生成する。生成部163は、発話情報を補完モデルに入力することにより末尾補完後発話情報を生成する。
〔7.効果〕
上述してきたように、実施形態に係る端末装置100は、取得部161と生成部163を備える。取得部161は、ユーザによる発話に関する発話情報と、発話の欠損の補完に用いる補完モデルとを取得する。生成部163は、取得部161により取得された発話情報と補完モデルとに基づいて、発話情報の欠損部分を補完する補完情報を生成する。
これにより、端末装置100は、ユーザによる発話の音声認識に失敗した場合であっても、欠損部分を補完した発話に関する発話情報を取得可能とする。すなわち、端末装置100は、ユーザによる発話の音声認識に失敗した場合であっても、ユーザに対して正しい発話の再入力を要求することなく、適切な応答を出力可能とする。また、端末装置100は、ユーザによる発話の音声認識に失敗した場合であっても、欠損した発話に基づいてユーザに対して的外れな応答を出力することなく、適切な応答を出力可能とする。したがって、端末装置100は、音声入力に関するユーザビリティを向上させることができる。
また、生成部163は、発話情報の先頭または末尾の少なくとも一方の欠損部分を補完する補完情報を生成する。
これにより、端末装置100は、発話の欠損が発生しやすい発話の先頭または末尾の音声認識に失敗した場合であっても、適切な応答を出力可能とする。
また、取得部161は、発話が変換された文字情報を発話情報として取得する。
これにより、端末装置100は、漢字仮名交じり文字情報である発話の音声認識に失敗した場合であっても、適切な応答を出力可能とする。
また、取得部161は、発話がローマ字変換された文字情報を発話情報として取得する。
これにより、端末装置100は、ローマ字情報である発話の音声認識に失敗した場合であっても、適切な応答を出力可能とする。また、端末装置100は、発話の先頭の音素(例えば、子音)が欠損した場合であっても、適切な応答を出力可能とする。
また、取得部161は、発話が音声文字変換された所定の音声記号である文字情報を発話情報として取得する。
これにより、端末装置100は、所定の音声記号である発話の音声認識に失敗した場合であっても、適切な応答を出力可能とする。また、端末装置100は、発話の先頭の音素や発話の末尾の音素が欠損した場合であっても、適切な応答を出力可能とする。
また、取得部161は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、補完情報を出力する補完モデルを取得する。生成部163は、発話情報を補完モデルに入力することにより補完情報を生成する。また、取得部161は、発話情報を入力とし、入力された発話情報に欠損部分がある場合、発話情報と補完情報とからなる補完後発話情報を出力する補完モデルを取得する。生成部163は、発話情報を補完モデルに入力することにより補完後発話情報を生成する。また、取得部161は、欠損部分がある欠損発話情報と、欠損発話情報に対応する欠損部分がない正解発話情報との組合せに基づいて、学習された補完モデルを取得する。
これにより、端末装置100は、学習データにない未知の欠損がある発話に対しても、適切な応答を出力可能とする。
また、実施形態に係る端末装置100は、学習部165をさらに備える。学習部165は、欠損発話情報と正解発話情報との組合せを含む学習データに基づいて補完モデルを学習する。取得部161は、学習部165により学習された補完モデルを取得する。また、学習部165は、過去の発話履歴の欠損発話情報と正解発話情報との組合せを含む学習データに基づいて、補完モデルを学習する。また、学習部165は、欠損部分が無い完全発話情報と、完全発話情報である正解発話情報との組合せを含む学習データに基づいて、補完モデルを学習する。
これにより、端末装置100は、学習データにない未知の欠損がある発話に対しても、適切な応答を出力可能とするモデルを学習することができる。
また、実施形態に係る端末装置100は、判定部162をさらに備える。取得部161は、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得する。判定部162は、取得部161により取得された発話情報と判定モデルとに基づいて、発話情報の欠損部分の有無を判定する。
これにより、端末装置100は、発話情報の欠損部分の有無の判定結果に応じて、適切に補完情報を生成することができる。例えば、端末装置100は、ユーザによる発話に欠損が有ると判定した場合のみ、発話情報を補完モデルに入力して補完情報を生成することができる。すなわち、端末装置100は、ユーザによる発話に欠損が無いと判定した場合には、発話情報を補完モデルに入力することなく、取得した発話情報に基づいて応答することができる。このように、端末装置100は、欠損の有無の判定結果に応じて適切に補完情報を生成することができる。したがって、端末装置100は、音声入力に関するユーザビリティを向上させることができる。
また、判定部162は、発話情報の先頭または末尾の少なくとも一方の欠損部分の有無を判定する。
これにより、端末装置100は、欠損が発生しやすい発話の先頭または末尾の欠損の有無を判定可能にする。したがって、端末装置100は、発話の欠損の有無を判定する判定の精度を高めることができる。
また、取得部161は、発話が変換された文字情報を発話情報として取得する。
これにより、端末装置100は、漢字仮名交じり文字情報である発話の欠損の有無を判定可能にする。
また、取得部161は、発話がローマ字変換された文字情報を発話情報として取得する。
これにより、端末装置100は、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定することができる。
また、取得部161は、発話が音声文字変換された所定の音声記号である文字情報を発話情報として取得する。
これにより、端末装置100は、端末装置100は、発話の先頭や末尾が欠損した場合であっても、発話の欠損の有無を判定することができる。
また、取得部161は、発話情報を入力とし、入力された発話情報に欠損部分がある可能性を示すスコアを出力する判定モデルを取得する。判定部162は、発話情報を判定モデルに入力することにより判定モデルが出力するスコアに基づいて、欠損部分の有無を判定する。また、取得部161は、判定モデルが出力するスコアと所定の閾値との比較に基づいて、欠損部分の有無を判定する。また、取得部161は、複数の発話情報の各々と、複数の発話情報の各々の欠損部分の有無を示す正解ラベルの各々との組合せに基づいて、学習された判定モデルを取得する。
これにより、端末装置100は、学習データにない未知の欠損がある発話に対しても、発話の欠損の有無を適切に判定可能とする。
また、学習部165は、複数の発話情報の各々と正解ラベルの各々との組合せである学習データに基づいて、判定モデルを学習する。取得部161は、学習部165により学習された判定モデルを取得する。また、学習部165は、過去の発話履歴の複数の発話情報の各々と、正解ラベルの各々との組合せである学習データに基づいて、判定モデルを学習する。
これにより、端末装置100は、学習データにない未知の欠損がある発話に対しても、発話の欠損の有無を適切に判定可能とするモデルを学習することができる。
〔8.ハードウェア構成〕
また、上述してきた実施形態に係る端末装置100は、例えば図11に示すような構成のコンピュータ1000によって実現される。図11は、端末装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の端末装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して端末装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が端末装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムまたはデータ(例えば、判定モデルM11や補完モデルM21)を実行することにより、制御部160の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムまたはデータ(例えば、判定モデルM11や補完モデルM21)を記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムまたはデータ(例えば、判定モデルM11や補完モデルM21)を取得してもよい。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔9.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
1 情報処理システム
100 端末装置
110 通信部
120 記憶部
121 ユーザ情報記憶部
122 発話情報記憶部
123 モデル情報記憶部
124 判定学習データ記憶部
125 補完学習データ記憶部
130 入力部
140 出力部
150 検知部
160 制御部
161 取得部
162 判定部
163 生成部
164 出力制御部
165 学習部

Claims (25)

  1. ユーザによる発話を検知すると、前記ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得し、前記発話情報に欠損部分があると判定された場合に、前記発話情報と、発話の欠損の補完に用いる補完モデルとを取得する取得手順と、
    前記取得手順により取得された前記発話情報と前記判定モデルとに基づいて、前記発話情報の欠損部分の有無を判定する判定手順と、
    前記取得手順により取得された前記発話情報と前記補完モデルとに基づいて、前記発話情報の欠損部分を補完する補完情報を生成する生成手順と、
    前記発話情報に基づいて、前記判定モデルと、前記補完モデルとを学習する学習手順と、
    をコンピュータに実行させ
    前記取得手順は、
    発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を前記発話情報として取得し、
    前記学習手順は、
    ローマ字情報である前記発話情報に基づいて、ローマ字情報である発話の欠損の有無を判定する前記判定モデルと、ローマ字情報である発話の欠損を補完する前記補完モデルとを学習する
    ことを特徴とする情報処理プログラム。
  2. 前記判定手順は、
    ローマ字情報である発話の欠損の有無を判定する前記判定モデルに基づいて、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定する
    ことを特徴とする請求項1に記載の情報処理プログラム。
  3. 前記生成手順は、
    ローマ字情報である発話の欠損を補完する前記補完モデルに基づいて、発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損を補完する前記補完情報を生成する
    ことを特徴とする請求項1または請求項2に記載の情報処理プログラム。
  4. 前記取得手順は、
    前記発話が音声文字変換された所定の音声記号である前記発話情報取得し、
    前記学習手順は、
    音声記号である前記発話情報に基づいて、音声記号である発話の欠損の有無を判定する前記判定モデルと、音声記号である発話の欠損を補完する前記補完モデルとを学習する
    ことを特徴とする請求項1~3のいずれか1項に記載の情報処理プログラム。
  5. 前記取得手順は、
    前記発話が漢字仮名交じり文字に変換された漢字仮名交じり文字情報である前記発話情報を取得し、
    前記学習手順は、
    漢字仮名交じり文字情報である前記発話情報に基づいて、漢字仮名交じり文字情報である発話の欠損の有無を判定する前記判定モデルと、漢字仮名交じり文字情報である発話の欠損を補完する前記補完モデルとを学習する
    ことを特徴とする請求項1~4のいずれか1項に記載の情報処理プログラム。
  6. 前記取得手順は、
    前記発話情報を入力とし、入力された前記発話情報に前記欠損部分がある場合、前記補完情報を出力する前記補完モデルを取得し、
    前記生成手順は、
    前記発話情報を前記補完モデルに入力することにより前記補完情報を生成する
    ことを特徴とする請求項1~5のいずれか1項に記載の情報処理プログラム。
  7. 前記取得手順は、
    前記発話情報を入力とし、入力された前記発話情報に前記欠損部分がある場合、前記発話情報と前記補完情報とからなる補完後発話情報を出力する前記補完モデルを取得し、
    前記生成手順は、
    前記発話情報を前記補完モデルに入力することにより前記補完後発話情報を生成する
    ことを特徴とする請求項1~5のいずれか1項に記載の情報処理プログラム。
  8. 前記取得手順は、
    前記欠損部分がある欠損発話情報と、前記欠損発話情報に対応する前記欠損部分がない正解発話情報との組合せに基づいて、学習された前記補完モデルを取得する
    ことを特徴とする請求項6または請求項7に記載の情報処理プログラム。
  9. 前記学習手順は、
    前記欠損発話情報と前記正解発話情報との前記組合せを含む学習データに基づいて前記補完モデルを学習し、
    前記取得手順は、
    前記学習手順により学習された前記補完モデルを取得する
    ことを特徴とする請求項8に記載の情報処理プログラム。
  10. 前記学習手順は、
    過去の発話履歴の前記欠損発話情報と前記正解発話情報との前記組合せを含む前記学習データに基づいて、前記補完モデルを学習する
    ことを特徴とする請求項9に記載の情報処理プログラム。
  11. 前記学習手順は、
    前記欠損部分が無い完全発話情報と、当該完全発話情報である前記正解発話情報との組合せを含む前記学習データに基づいて、前記補完モデルを学習する
    ことを特徴とする請求項9または請求項10に記載の情報処理プログラム。
  12. 前記取得手順は、
    前記発話情報を入力とし、入力された前記発話情報に前記欠損部分がある可能性を示すスコアを出力する前記判定モデルを取得し、
    前記判定手順は、
    前記発話情報を前記判定モデルに入力することにより前記判定モデルが出力するスコアに基づいて、前記欠損部分の有無を判定する
    ことを特徴とする請求項11のいずれか1項に記載の情報処理プログラム。
  13. 前記判定手順は、
    前記判定モデルが出力する前記スコアと所定の閾値との比較に基づいて、前記欠損部分の有無を判定する
    ことを特徴とする請求項12に記載の情報処理プログラム。
  14. 前記取得手順は、
    複数の発話情報の各々と、前記複数の発話情報の各々の欠損部分の有無を示す正解ラベルの各々との組合せに基づいて、学習された前記判定モデルを取得する
    ことを特徴とする請求項12または請求項13に記載の情報処理プログラム。
  15. 前記複数の発話情報の各々と前記正解ラベルの各々との前記組合せである学習データに基づいて、前記判定モデルを学習する学習手順、
    をさらに実行し、
    前記取得手順は、前記学習手順により学習された前記判定モデルを取得する
    ことを特徴とする請求項14に記載の情報処理プログラム。
  16. 前記学習手順は、
    過去の発話履歴の前記複数の発話情報の各々と、前記正解ラベルの各々との前記組合せである前記学習データに基づいて、前記判定モデルを学習する
    ことを特徴とする請求項15に記載の情報処理プログラム。
  17. 前記学習手順は、
    前記発話情報と、前記発話情報の欠損部分の有無を示す正解ラベルとの組合せである学習データに基づいて前記判定モデルを学習して、前記発話情報を入力とし、入力された前記発話情報に欠損部分がある可能性を示すスコアを出力する前記判定モデルを生成する
    ことを特徴とする請求項1~16のいずれか1項に記載の情報処理プログラム。
  18. 前記判定モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に応じて、前記発話情報に欠損部分がある可能性を示すスコアを出力層から出力する
    ことを特徴とする請求項17に記載の情報処理プログラム。
  19. 前記判定モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、前記発話情報に欠損部分がある可能性を示すスコアを出力層から出力する
    ことを特徴とする請求項17に記載の情報処理プログラム。
  20. 前記学習手順は、
    前記発話情報に関して、欠損部分がある欠損発話情報と、前記欠損発話情報に対応する欠損部分がない正解発話情報との組合せを含む学習データに基づいて前記補完モデルを学習して、前記発話情報を入力とし、入力された前記発話情報に欠損部分がある場合、前記発話情報と前記補完情報とからなる補完後発話情報を出力する前記補完モデルを生成する
    ことを特徴とする請求項17~19のいずれか1項に記載の情報処理プログラム。
  21. 前記補完モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に応じて、補完後前記発話情報を出力層から出力する
    ことを特徴とする請求項20に記載の情報処理プログラム。
  22. 前記補完モデルは、前記発話情報が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された前記発話情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、補完後前記発話情報を出力層から出力する
    ことを特徴とする請求項20に記載の情報処理プログラム。
  23. 前記判定モデル及び前記補完モデルは、回帰モデルで実現される
    ことを特徴とする請求項1~22のいずれか1項に記載の情報処理プログラム。
  24. ユーザによる発話を検知すると、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得し、前記発話情報に欠損部分があると判定された場合に、前記発話情報と、発話の欠損の補完に用いる補完モデルとを取得する取得部と、
    前記取得部により取得された前記発話情報と前記判定モデルとに基づいて、前記発話情報の欠損部分の有無を判定する判定部と、
    前記取得部により取得された前記発話情報と前記補完モデルとに基づいて、前記発話情報の欠損部分を補完する補完情報を生成する生成部と、
    前記発話情報に基づいて、前記判定モデルと、前記補完モデルとを学習する学習部と、
    を備え
    前記取得部は、
    発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を前記発話情報として取得し、
    前記学習部は、
    ローマ字情報である前記発話情報に基づいて、ローマ字情報である発話の欠損の有無を判定する前記判定モデルと、ローマ字情報である発話の欠損を補完する前記補完モデルとを学習する
    ことを特徴とする情報処理装置。
  25. コンピュータが実行する判定方法であって、
    ユーザによる発話を検知すると、ユーザによる発話に関する発話情報と、発話の欠損の有無の判定に用いる判定モデルとを取得し、前記発話情報に欠損部分があると判定された場合に、前記発話情報と、発話の欠損の補完に用いる補完モデルとを取得する取得工程と、
    前記取得工程により取得された前記発話情報と前記判定モデルとに基づいて、前記発話情報の欠損部分の有無を判定する判定工程と、
    前記取得工程により取得された前記発話情報と前記補完モデルとに基づいて、前記発話情報の欠損部分を補完する補完情報を生成する生成工程と、
    前記発話情報に基づいて、前記判定モデルと、前記補完モデルとを学習する学習工程と、
    を含み、
    前記取得工程は、
    発話の先頭の子音や末尾の子音が欠損した場合であっても、発話の欠損の有無を判定し、発話の欠損を補完できるようにするため、発話がローマ字変換された文字情報を前記発話情報として取得し、
    前記学習工程は、
    ローマ字情報である前記発話情報に基づいて、ローマ字情報である発話の欠損の有無を判定する前記判定モデルと、ローマ字情報である発話の欠損を補完する前記補完モデルとを学習する
    ことを特徴とする情報処理方法。
JP2019094410A 2019-05-20 2019-05-20 情報処理プログラム、情報処理装置及び情報処理方法 Active JP7092708B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019094410A JP7092708B2 (ja) 2019-05-20 2019-05-20 情報処理プログラム、情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019094410A JP7092708B2 (ja) 2019-05-20 2019-05-20 情報処理プログラム、情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JP2020190589A JP2020190589A (ja) 2020-11-26
JP7092708B2 true JP7092708B2 (ja) 2022-06-28

Family

ID=73454476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019094410A Active JP7092708B2 (ja) 2019-05-20 2019-05-20 情報処理プログラム、情報処理装置及び情報処理方法

Country Status (1)

Country Link
JP (1) JP7092708B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251147A (ja) 2005-03-09 2006-09-21 Canon Inc 音声認識方法
JP2009109585A (ja) 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識制御装置
JP2010128766A (ja) 2008-11-27 2010-06-10 Canon Inc 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2010256498A (ja) 2009-04-22 2010-11-11 Nec Corp 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02183300A (ja) * 1989-01-10 1990-07-17 Hitachi Ltd 音声認識装置
JP3126945B2 (ja) * 1997-10-30 2001-01-22 株式会社エイ・ティ・アール音声翻訳通信研究所 文字誤り校正装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251147A (ja) 2005-03-09 2006-09-21 Canon Inc 音声認識方法
JP2009109585A (ja) 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識制御装置
JP2010128766A (ja) 2008-11-27 2010-06-10 Canon Inc 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2010256498A (ja) 2009-04-22 2010-11-11 Nec Corp 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム

Also Published As

Publication number Publication date
JP2020190589A (ja) 2020-11-26

Similar Documents

Publication Publication Date Title
EP3770905B1 (en) Speech recognition method, apparatus and device, and storage medium
AU2019200746B2 (en) Method to generate summaries tuned to topics of interest of readers
US11423883B2 (en) Contextual biasing for speech recognition
US10534854B2 (en) Generating a targeted summary of textual content tuned to a target audience vocabulary
US11189273B2 (en) Hands free always on near field wakeword solution
US8930187B2 (en) Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device
EP3605537A1 (en) Speech emotion detection method and apparatus, computer device, and storage medium
US20230089285A1 (en) Natural language understanding
US11574637B1 (en) Spoken language understanding models
CN112005299B (zh) 理解自然语言短语的多模型
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
US11756549B2 (en) Systems and methods for enabling topic-based verbal interaction with a virtual assistant
US11984126B2 (en) Device for recognizing speech input of user and operating method thereof
JP2012113542A (ja) 感情推定装置、その方法、プログラム及びその記録媒体
JP2020077159A (ja) 対話システム、対話装置、対話方法、及びプログラム
US10366442B1 (en) Systems and methods to update shopping cart
JP6392950B1 (ja) 検出装置、検出方法、および検出プログラム
JP2018156418A (ja) 修正装置、修正方法および修正プログラム
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
KR20220089537A (ko) 전자 장치 및 이의 제어 방법
US11741945B1 (en) Adaptive virtual assistant attributes
JP6605997B2 (ja) 学習装置、学習方法及びプログラム
JP7092708B2 (ja) 情報処理プログラム、情報処理装置及び情報処理方法
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220616

R150 Certificate of patent or registration of utility model

Ref document number: 7092708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350