JP2017032738A - 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム - Google Patents
発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム Download PDFInfo
- Publication number
- JP2017032738A JP2017032738A JP2015151648A JP2015151648A JP2017032738A JP 2017032738 A JP2017032738 A JP 2017032738A JP 2015151648 A JP2015151648 A JP 2015151648A JP 2015151648 A JP2015151648 A JP 2015151648A JP 2017032738 A JP2017032738 A JP 2017032738A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- intention
- utterance intention
- partial section
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
発話の一部の区間にのみ発話意図が含まれる音声を分析した結果、韻律の変化は単語よりも長い区間に渡って表出しており、特にアクセント句における声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングに差が表れることが見出された。このことから、本発明ではアクセント句単位での韻律変化に着目した。ここで、単に従来技術において韻律特徴を抽出する区間を発話全体からアクセント句ごとに変えただけでは、アクセント句区間全体の平均値や勾配を求めることになり、声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングなどの局所的な韻律の変化を特徴量として表現することができない。この問題に対処するため、本発明では発話の単語区間ごとの韻律特徴を求めることで局所的な韻律の変化を表現し、それらをアクセント句区間ごとに連結した特徴を発話意図抽出に用いることでアクセント句における局所的な韻律の変化を表現する。以下では、発話の単語区間ごとの韻律特徴を局所韻律特徴、局所韻律特徴をアクセント句区間ごとに連結した特徴を局所韻律系列特徴と呼ぶ。
以下、局所韻律系列特徴に基づいて発話意図を抽出する実施例1の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献1における定義と同一とする。図5、図6、図7を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図5は、本実施例で用いられる局所韻律特徴の一覧を示す図である。図6は、本実施例の発話意図抽出装置1の構成を示すブロック図である。図7は、本実施例の発話意図抽出装置1の動作を示すフローチャートである。図6に示すように、本実施例の発話意図抽出装置1は、韻律抽出部901と、認識結果分析部902と、韻律正規化部903と、局所韻律特徴抽出部104と、アクセント句境界推定部105と、局所韻律系列特徴抽出部106と、アクセント句毎発話意図ラベル作成部107と、発話意図モデル学習部108と、発話意図抽出部109を含む。
入力:発話(発話意図の抽出対象として入力された発話)
出力:短時間ごとの基本周波数、短時間ごとの音圧レベル
韻律抽出部901は、発話から、声の高さと声の大きさの物理量を求める。声の高さを表す物理量として基本周波数を、声の大きさを表す物理量として音圧レベルを用いることができる。韻律抽出部901は、これらの物理量(基本周波数、音圧レベル)を短い周期ごとに求める。すなわち、韻律抽出部901は、発話を所定の短時間(例えば10ms)ごとに分析し、短時間ごとの基本周波数と音圧レベルを抽出する(S901)。本実施例では、韻律抽出部901は基本周波数を自己相関法により、音圧レベルを振幅の二乗平均平方根の対数値により得ることとするが、基本周波数、音圧レベルの抽出方法はこれに限定されるものではなく、従来の何れの基本周波数抽出法、音圧レベル抽出法を用いてもよい。
入力:発話、発話ごとの音声認識結果
出力:単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
認識結果分析部902は、認識結果に含まれる単語、音素とその開始・終了時刻を得る(S902)。例えば、単語系列は発話ごとの音声認識結果を形態素解析することで取得できる。また単語の開始・終了時刻、音素系列、音素の開始・終了時刻は発話ごとの音声認識結果から音声認識結果のみを受理するネットワーク文法を作成し、単語セグメンテーションまたは音素セグメンテーションを行うことで得られる(参考非特許文献1参照)。ただし、入力の発話ごとの音声認識結果の時点で単語系列や単語の開始・終了時刻、音素系列、音素の開始・終了時刻が得られている場合は、音声認識結果の値を用いてもよい。
(参考非特許文献1:鹿野清宏、河原達也、山本幹雄、伊藤克亘、武田一哉、ITText音声認識システム、pp.47-49/169-170、オーム社、2001)
入力:短時間ごとの基本周波数、短時間ごとの音圧レベル、話者ごとの基本周波数の平均値、標準偏差、話者ごとの音圧レベルの平均値、標準偏差
出力:短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル
韻律正規化部903は、短時間ごとの基本周波数、短時間ごとの音圧レベルを話者ごとに正規化し、平均0、標準偏差1とする(S903)。これは、声の高さや声の大きさの話者ごとの違いを吸収することに相当する。韻律正規化部903により、発話意図抽出部109において、どんな話者に対しても同一の発話意図抽出基準を適用して発話意図抽出を行うことが可能となる。
入力:短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル、単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
出力:局所韻律特徴(図5最右列の全要素)
入力:短時間ごとの正規化基本周波数、各単語の開始・終了時刻
出力:単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配
F0局所韻律特徴抽出部1041は、声の高さに関する局所韻律特徴を抽出する(S1041)。声の高さに関する局所韻律特徴として、単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配が含まれる。
入力:短時間ごとの正規化音圧レベル、各単語の開始・終了時刻
出力:単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配
パワー所韻律特徴抽出部1042は、声の大きさに関する局所韻律特徴を抽出する(S1042)。声の大きさに関する局所韻律特徴として、単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配が含まれる。
入力:単語系列、各単語の開始・終了時刻
出力:次の単語までの間の長さ
ポーズ局所韻律特徴抽出部1043は、単語間の間の取り方に関する局所韻律特徴を抽出する(S1043)。単語間の間の取り方に関する局所韻律特徴として次の単語までの(あるいは前の単語からの)間の長さが含まれる。本実施例では、以下の2つの区間を間と定義する。<1>ある単語の終了時刻から次の単語の開始時刻までの区間。<2>音声認識結果に含まれる句読点またはポーズの区間。単語ごとの次の単語までの間の長さは、(次の単語の開始時刻−単語の終了時刻)として得られる。このとき、単語が続けて発声される場合、次の単語までの間の長さは0秒となる。ただし、句読点またはポーズは間とみなすため単語に含めない。また、発話末尾の単語においては、次の単語までの間の長さは0秒であるものとする。
入力:音素系列、各単語の開始・終了時刻
出力:単語ごとの話速
スピーチレート局所韻律特徴抽出部1044は、話速に関する局所韻律特徴を抽出する(S1044)。話速に関する局所韻律特徴として、単語ごとの話速が含まれる。話速は単位時間あたりに発話した音素数であるものとし、音素数/(単語の終了時刻−単語の開始時刻)を単語ごとに計算することで得られる。音素数は単語ごとの音素系列に含まれる音素の数である。
入力:各音素の開始・終了時刻、各単語の開始・終了時刻
出力:単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長
デュレーション局所韻律特徴抽出部1045は、音の伸ばし方に関する局所韻律特徴を抽出する(S1045)。音の伸ばし方に関する局所韻律特徴として、単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長が含まれる。音素継続長は、音素の終了時刻−音素の開始時刻を音素ごとに計算することで得られる。デュレーション局所韻律特徴抽出部1045は、単語に含まれる全音素に対し音素継続長を求め、それらの値から単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長を取得できる。
入力:単語系列
出力:アクセント句境界
アクセント句境界推定部105は、単語系列からアクセント句境界を推定する(S105)。ここで、アクセント句境界とは、あるアクセント句と別のアクセント句との境界地点を指し、アクセント句境界に挟まれた区間を一つのアクセント句区間とする。本実施例ではアクセント句境界推定手法に、参考非特許文献2の手法を用いるが、本発明はこれに限定されず、他のどのアクセント句境界推定手法を用いてもよい。
(参考非特許文献2:浅野、松岡、市井、大山、“テキスト音声変換における読み・韻律付与処理の評価:ニュース文を対象として、”第51回情報処理学会全国大会講演論文集、pp.109-100、1995)
入力:局所韻律特徴、アクセント句境界
出力:局所韻律系列特徴
局所韻律系列特徴抽出部106は、アクセント句区間に含まれる単語区間ごとの局所韻律特徴を連結し、アクセント句単位での局所韻律系列特徴を抽出する(S106)。局所韻律系列特徴はアクセント句区間にわたる韻律の局所的な変化を表現する。連結とは、単語ごとの局所韻律特徴ベクトル(局所韻律特徴のベクトル表現)を、アクセント句に含まれる単語数nだけ連結し、局所韻律系列特徴ベクトルを作成することを指す。このとき、nを連結数と呼ぶ。局所韻律系列特徴の抽出の例を図10に示す。図10の例では、アクセント句「そうですね」に含まれる3つの局所韻律特徴ベクトルが連結されて単語連結数3の局所韻律系列特徴ベクトルが生成される。これに対し、アクセント句「うーん」には1つの局所韻律特徴ベクトルのみが含まれるため、この局所韻律特徴ベクトルがそのまま単語連結数1の局所韻律系列特徴ベクトルとされる。一方、アクセント句「わたしですか」に含まれる3つの局所韻律特徴ベクトルは連結されて単語連結数3の局所韻律系列特徴ベクトルが生成される。
入力:アクセント句境界、発話意図ラベル
出力:アクセント句ごと発話意図ラベル
アクセント句毎発話意図ラベル作成部107は、アクセント句ごとの発話意図ラベルを作成する(S107)。このステップでは、アクセント句境界と、発話意図ラベルが用いられる。発話意図ラベルは、人間が音声を聴取し、発話意図を感じた音声区間にラベルを付与することで得られる。本実施例では、人間が音声を聴取し、「肯定的」「否定的」の二つのラベルのうちの何れかのラベルをアクセント句ごとに付与する。あるアクセント句に対し、各ラベルは高々一つしか付与されないものとし、どのラベルも付与されなかったアクセント句は「どちらでもない」ラベルが付与されたものとする。
入力:局所韻律系列特徴、アクセント句ごと発話意図ラベル
出力:発話意図モデル
発話意図モデル学習部108は、アクセント句ごとの局所韻律系列特徴と、これに対応するアクセント句ごとの発話意図ラベルとを学習データとし、発話意図抽出を行うための発話意図モデルを予め学習する(S108)。発話意図モデルは、連結数nごとに学習する。すなわち、アクセント句ごとの局所韻律系列特徴とそれに対応する発話意図ラベルの集合から、同一の連結数を持つ局所韻律系列特徴とそれに対応する発話意図ラベルを選び、発話意図モデルを学習する。発話意図モデルは、例えば決定木であってもよい。図12に発話意図モデルを決定木として学習した例(連結数2の例)を示す。
入力:局所韻律系列特徴、発話意図モデル
出力:発話ごとの発話意図
発話意図抽出部109は、局所韻律系列特徴と、ステップS108で学習した発話意図モデルに基づいて、アクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出する(S109)。
機械との音声対話や打合せでは、一人の話者が継続して話すことがある。このような場合、一つの発話に二つ以上の発話意図の特徴が表れる発話が発生することもある。例えば、発話単位では否定の発話意図である「その通りです。しかし私は反対です。」という発話には、発話の前半に肯定的な発話意図の特徴が、発話の後半に否定的な発話意図の特徴が表れる(図13参照)。しかし、非特許文献1の発話意図抽出装置9は、一つの発話には一つの発話意図のみが表れると仮定し、発話全体から求めた韻律特徴や言語特徴に基づいて発話意図抽出を行う。そのため、非特許文献1の発話意図抽出装置9で求めた韻律特徴や言語特徴には異なる種類の発話意図の特徴が含まれることがあると考えられ、非特許文献1の発話意図抽出装置9では正しく発話意図を抽出することが困難な場合があった。
以下、N−gramモデルを用いて発話意図を抽出する実施例2の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献1における定義と同一とする。図17、図18を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図17は、本実施例の発話意図抽出装置2の構成を示すブロック図である。図18は、本実施例の発話意図抽出装置2の動作を示すフローチャートである。図17に示すように、本実施例の発話意図抽出装置2は、部分区間毎特徴量抽出部201と、部分区間毎発話意図モデル学習部202と、部分区間毎発話意図抽出部203と、発話意図インデクスコードブック作成部204と、発話意図インデクス変換部205と、N−gramモデル学習部206と、発話毎発話意図抽出部207を含む。
入力:発話、発話ごとの音声認識結果
出力:部分区間ごとの特徴量
部分区間毎特徴量抽出部201は、部分区間ごとの特徴量を抽出する(S201)。例えば、部分区間をアクセント句とし、実施例1の901〜903、104〜106と同様の方法で特徴量として局所韻律系列特徴を抽出してもよい。また、部分区間ごとの特徴量は、韻律特徴または言語特徴の少なくとも一つを含む。韻律特徴は、実施例1の局所韻律特徴の少なくとも一つを含む。言語特徴は、例えば部分区間内の単語列のBag−of−Wordsを用いることができるが、部分区間に含まれる単語から決定可能な特徴量であればどのような特徴量を用いてもよい。
入力:部分区間ごとの特徴量、部分区間ごとの発話意図ラベル
出力:部分区間ごとの発話意図モデル
部分区間毎発話意図モデル学習部202は、部分区間ごとの特徴量と、それに対応する部分区間ごとの発話意図ラベルを用いて、部分区間ごとの特徴量と部分区間ごとの発話意図との関係性を表現するモデルを学習する(S202)。ここでは学習手法としてニューラルネットワークを用いるが、クラス分類が可能な他の学習手法を用いてもよい。また、学習を行わず、人手で部分区間ごとの特徴量と部分区間ごとの発話意図との関係性を表現するルールを作成してもよい。
入力:部分区間ごとの特徴量、部分区間ごとの発話意図モデル
出力:部分区間ごとの発話意図の確率ベクトル
部分区間毎発話意図抽出部203は、部分区間ごとの発話意図モデルを用いて、部分区間ごとの特徴量からその部分区間の発話意図の確率を求める(S203)。部分区間の発話意図の確率は、例えばニューラルネットワークであれば出力層の活性化関数にソフトマックス関数を用いた際の出力値などを用いる。部分区間の発話意図の確率を結合し、部分区間ごとの発話意図の確率ベクトルとして出力する。
入力:部分区間ごとの発話意図の確率ベクトル
出力:発話意図インデクスコードブック
発話意図インデクスコードブック作成部204は、部分区間ごとの発話意図の確率ベクトルを発話意図インデクスに変換するための、コードブックを作成する(S204)。ここでは、ベクトル量子化のためのコードブック作成方法としてk平均法を用いる。部分区間ごとの発話意図の確率ベクトルの集合を用意し、クラスタ数をk個としてk平均法を適用することで、部分区間ごとの発話意図の確率ベクトルのセントロイドがk個得られる。各セントロイドに発話意図インデクスを割り当て、コードブックとする。kの数は発話意図の分類の数であり、kが多いほど発話意図の分類を細かくすることに相当する。例えば、k=20とする。また、発話意図インデクス変換部204にてベクトル量子化が可能であるならば、既存のどのコードブック作成方法を用いてもよい。
入力:部分区間ごとの発話意図の確率ベクトル、発話意図インデクスコードブック
出力:部分区間ごとの発話意図インデクス
発話意図インデクス変換部205は、部分区間ごとの発話意図の確率ベクトルを部分区間ごとの発話意図インデクスに変換する(S205)。k平均法を用いて発話意図インデクスコードブックを作成した場合、ある部分区間の発話意図の確率ベクトルから最もユークリッド距離の近いセントロイドの発話意図インデクスを、その部分区間における発話意図インデクスとする。
入力:部分区間ごとの発話意図インデクス(の系列)、発話ごとの発話意図ラベル
出力:発話意図N−gramモデル
N−gramモデル学習部206は、発話ごとの発話意図別に、部分区間ごとの発話意図インデクスのN−gramである発話意図N−gramを学習する(S206)。ここでは、N=3としてモデル学習を行う。発話意図N−gramの学習は、N−gram言語モデルの学習と同様の枠組みで行う。すなわち、N−gram確率は最尤推定により決定し、その後学習データに含まれなかった発話意図N−gramへの対処としてバックオフ平滑化を実施する。出力として、発話ごとの発話意図が肯定的、否定的、どちらでもない、のそれぞれにおける発話意図N−gramモデルを得る(図15、図16参照)。すなわち、3つの発話意図N−gramモデルを得る。
入力:部分区間ごとの発話意図インデクス(の系列)、発話意図N−gramモデル
出力:発話ごとの発話意図の抽出結果
発話毎発話意図抽出部207は、発話意図N−gramモデルを用いて部分区間ごとの発話意図インデクス(の系列)から発話ごとの発話意図を抽出する(S207)。ある発話全体の部分区間ごとの発話意図インデクスの出現確率を、N−gramモデル学習部206の出力の発話意図N−gramモデルごとに求める。ある発話全体の部分区間ごとの発話意図インデクスの出現確率が最も高くなるような発話意図N−gramモデルが発話ごとの発話意図の抽出結果となる(図15、図16参照)。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルである発話意図N−gramモデルを学習する発話意図モデル学習装置。 - 請求項1に記載の発話意図モデル学習装置は、発話意図の分類と当該分類を示すインデクスを対応付ける発話意図インデクスコードブックを有し、
前記部分区間毎発話意図は、各発話意図が出現する確率を用いて表現され、
前記部分区間毎発話意図インデクス系列は、前記部分区間毎発話意図の確率を用いて決定される発話意図の分類を、前記発話意図インデクスコードブックを用いて変換することにより求まるインデクスの列である発話意図モデル学習装置。 - 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
発話意図の抽出対象として入力された発話から、発話ごとの発話意図を抽出する発話意図抽出装置であって、
前記発話から、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列を生成する部分区間毎発話意図インデクス系列生成部と、
前記部分区間毎発話意図インデクス系列と、発話意図N−gramモデルに基づいて、前記発話意図を抽出する発話毎発話意図抽出部と
を含み、
前記発話意図N−gramモデルは、前記部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルとして学習したものであることを特徴とする発話意図抽出装置。 - 請求項3に記載の発話意図抽出装置は、発話意図の分類と当該分類を示すインデクスを対応付ける発話意図インデクスコードブックを有し、
前記部分区間毎発話意図は、各発話意図が出現する確率を用いて表現され、
前記部分区間毎発話意図インデクス系列は、前記部分区間毎発話意図の確率を用いて決定される発話意図の分類を、前記発話意図インデクスコードブックを用いて変換することにより求まるインデクスの列である発話意図抽出装置。 - 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルである発話意図N−gramモデルを学習する発話意図モデル学習方法。 - 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
発話意図の抽出対象として入力された発話から、発話ごとの発話意図を抽出する発話意図抽出方法であって、
前記発話から、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列を生成するステップと、
前記部分区間毎発話意図インデクス系列と、発話意図N−gramモデルに基づいて、前記発話意図を抽出するステップと
を含み、
前記発話意図N−gramモデルは、前記部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルとして学習したものであることを特徴とする発話意図抽出方法。 - 請求項1または2に記載の発話意図モデル学習装置、または請求項3または4に記載の発話意図抽出装置のいずれか一つとしてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015151648A JP6370749B2 (ja) | 2015-07-31 | 2015-07-31 | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015151648A JP6370749B2 (ja) | 2015-07-31 | 2015-07-31 | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017032738A true JP2017032738A (ja) | 2017-02-09 |
JP6370749B2 JP6370749B2 (ja) | 2018-08-08 |
Family
ID=57987774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015151648A Active JP6370749B2 (ja) | 2015-07-31 | 2015-07-31 | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6370749B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6327777B1 (ja) * | 2018-03-22 | 2018-05-23 | 株式会社Zaizen | 分類情報生成装置、分類情報生成方法、およびプログラム |
JP2018169494A (ja) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | 発話意図推定装置および発話意図推定方法 |
CN110827802A (zh) * | 2019-10-31 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别训练和解码方法及装置 |
CN111383634A (zh) * | 2018-12-28 | 2020-07-07 | 百度(美国)有限责任公司 | 根据基于声音的机制停用智能显示设备的显示器的方法及系统 |
CN112035648A (zh) * | 2020-09-02 | 2020-12-04 | 中国科学技术大学 | 一种用户数据的处理方法、装置及电子设备 |
KR20200137160A (ko) * | 2019-05-29 | 2020-12-09 | 주식회사 카카오 | 입력 발화의 의도를 추정하는 모델의 학습을 제어하는 방법 및 장치 |
JP2021144156A (ja) * | 2020-03-12 | 2021-09-24 | 株式会社日立製作所 | 計算機システム及び作業の推定方法 |
US11475891B2 (en) * | 2020-02-04 | 2022-10-18 | Lg Electronics Inc. | Low delay voice processing system |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102364881B1 (ko) | 2020-03-24 | 2022-02-18 | 주식회사 에스아이에이 | 전문가 모사 모델 학습 방법 및 그 학습을 위한 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249810A (ja) * | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話理解方法及び対話理解プログラムを格納した記憶媒体 |
JP2006098993A (ja) * | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 音声処理装置およびそのためのコンピュータプログラム |
JP2006343405A (ja) * | 2005-06-07 | 2006-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2013109738A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム |
-
2015
- 2015-07-31 JP JP2015151648A patent/JP6370749B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249810A (ja) * | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話理解方法及び対話理解プログラムを格納した記憶媒体 |
JP2006098993A (ja) * | 2004-09-30 | 2006-04-13 | Advanced Telecommunication Research Institute International | 音声処理装置およびそのためのコンピュータプログラム |
JP2006343405A (ja) * | 2005-06-07 | 2006-12-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2013109738A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
木村 晋一、外4名: "車内音声対話システムのための事例に基づく発話意図推定", 情報処理学会研究報告, vol. 2002, no. 10, JPN6018025100, 2 February 2002 (2002-02-02), JP, pages 115 - 120, ISSN: 0003831885 * |
東中 竜一郎、外2名: "複数文脈を用いる音声対話システムにおける統計モデルに基づく談話理解法", 情報処理学会研究報告, vol. 2003, no. 14, JPN6018025102, 8 February 2003 (2003-02-08), JP, pages 101 - 106, ISSN: 0003831886 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018169494A (ja) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | 発話意図推定装置および発話意図推定方法 |
JP6327777B1 (ja) * | 2018-03-22 | 2018-05-23 | 株式会社Zaizen | 分類情報生成装置、分類情報生成方法、およびプログラム |
WO2019180973A1 (ja) * | 2018-03-22 | 2019-09-26 | 株式会社Zaizen | 分類情報生成装置、分類情報の生産方法、および記録媒体 |
JP2019168483A (ja) * | 2018-03-22 | 2019-10-03 | 株式会社Zaizen | 分類情報生成装置、分類情報生成方法、およびプログラム |
CN111383634B (zh) * | 2018-12-28 | 2024-04-02 | 百度(美国)有限责任公司 | 根据基于声音的机制停用智能显示设备的显示器的方法及系统 |
CN111383634A (zh) * | 2018-12-28 | 2020-07-07 | 百度(美国)有限责任公司 | 根据基于声音的机制停用智能显示设备的显示器的方法及系统 |
JP2020109608A (ja) * | 2018-12-28 | 2020-07-16 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム |
JP7190982B2 (ja) | 2018-12-28 | 2022-12-16 | バイドゥ ユーエスエイ エルエルシー | 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム |
KR20200137160A (ko) * | 2019-05-29 | 2020-12-09 | 주식회사 카카오 | 입력 발화의 의도를 추정하는 모델의 학습을 제어하는 방법 및 장치 |
KR102271068B1 (ko) | 2019-05-29 | 2021-06-30 | 주식회사 카카오 | 입력 발화의 의도를 추정하는 모델의 학습을 제어하는 방법 및 장치 |
CN110827802A (zh) * | 2019-10-31 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别训练和解码方法及装置 |
US11475891B2 (en) * | 2020-02-04 | 2022-10-18 | Lg Electronics Inc. | Low delay voice processing system |
JP2021144156A (ja) * | 2020-03-12 | 2021-09-24 | 株式会社日立製作所 | 計算機システム及び作業の推定方法 |
JP7246337B2 (ja) | 2020-03-12 | 2023-03-27 | 株式会社日立製作所 | 計算機システム及び作業の推定方法 |
CN112035648A (zh) * | 2020-09-02 | 2020-12-04 | 中国科学技术大学 | 一种用户数据的处理方法、装置及电子设备 |
CN112035648B (zh) * | 2020-09-02 | 2024-02-23 | 中国科学技术大学 | 一种用户数据的处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6370749B2 (ja) | 2018-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6370749B2 (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
US11410684B1 (en) | Text-to-speech (TTS) processing with transfer of vocal characteristics | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US12046226B2 (en) | Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
CN114203147A (zh) | 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法 | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
US10008216B2 (en) | Method and apparatus for exemplary morphing computer system background | |
Ryant et al. | Highly accurate mandarin tone classification in the absence of pitch information | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
Jothilakshmi et al. | Large scale data enabled evolution of spoken language research and applications | |
JP2018077440A (ja) | 音声認識装置、音声認識方法およびプログラム | |
JP6370732B2 (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
Ronanki | Prosody generation for text-to-speech synthesis | |
Langarani et al. | Data-driven foot-based intonation generator for text-to-speech synthesis. | |
Cai et al. | The DKU Speech Synthesis System for 2019 Blizzard Challenge | |
JP2014095851A (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
CN113192483B (zh) | 一种文本转换为语音的方法、装置、存储介质和设备 | |
Langarani et al. | Speaker intonation adaptation for transforming text-to-speech synthesis speaker identity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6370749 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |