JP7494935B2 - 推定装置、推定方法、および、推定プログラム - Google Patents

推定装置、推定方法、および、推定プログラム Download PDF

Info

Publication number
JP7494935B2
JP7494935B2 JP2022558818A JP2022558818A JP7494935B2 JP 7494935 B2 JP7494935 B2 JP 7494935B2 JP 2022558818 A JP2022558818 A JP 2022558818A JP 2022558818 A JP2022558818 A JP 2022558818A JP 7494935 B2 JP7494935 B2 JP 7494935B2
Authority
JP
Japan
Prior art keywords
feature amount
sentence
estimation
pause
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022558818A
Other languages
English (en)
Other versions
JPWO2022091422A1 (ja
Inventor
のぞみ 小林
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022091422A1 publication Critical patent/JPWO2022091422A1/ja
Application granted granted Critical
Publication of JP7494935B2 publication Critical patent/JP7494935B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、自然性の高いポーズ(pause。「間」とも呼ばれる無音時間)の位置の推定装置、推定方法、および、推定プログラムに関する。
従来、音声合成において自然性の高いポーズ位置およびポーズ長を推定する技術が提案されている。例えば、ポーズ位置およびポーズ長の推定に、人手で設計した規則を用いる手法、ポーズ位置およびポーズ長が付与された学習用データを用いた機械学習を用いる手法等がある(非特許文献1参照)。
太田健吾他,ポーズを考慮した話し言葉言語モデルの構築,情報処理学会論文誌Vol.53 No.2,pp.889-900,2012 武藤博子他,合成音声への自然なポーズ挿入のための音声の自然性に影響を与えるポーズ位置に関する要因の分析と評価, 情報処理学会論文誌, Vol. 56, No .3, pp. 993-1002, 2015 浅原正幸他,日本語固有表現抽出におけるわかち書き問題の解決,情報処理学会論文誌 Vol.45 No.5, pp.1442-1450, 2004 Frantzi, Katerina T. and Ananiadou, Sophia, Extracting Nested Collocations, The 16th International Conference on Computational Linguistics, 1996
しかし、従来技術では、例えば「夏の甲子園」のように、ひとかたまりとして読まれることが多い複合語の情報は考慮されていない。そのため、従来技術により文のポーズ位置を推定すると、「夏の/甲子園」のように、ひとかたまりとして読まれる複合語の中にポーズ(「/」)が挿入される可能性がある。なお、以下、「/(スラッシュ)」はポーズが入る位置を示す。
また、従来技術において、文の係り受け構造を用いてポーズ位置を推定することも提案されているが(例えば、非特許文献2参照)、ある文節が直後にかかる場合でもポーズが入る場合もあり、文の係り受け構造だけでは、ポーズの位置をとらえきれない。これは、ポーズには強調のためのポーズも存在しており、例えば、「中国の/国家旅遊局」のように「AのB」で直後にかかる場合でもポーズが存在するからである。
また、大量の学習用データを用いて、ポーズ位置を正しく推定するためのモデルを作成することも考えられるが、上記のような複合語を網羅的に含んだ学習用データを準備することは現実的ではない。
そこで、本発明は、前記した問題を解決し、文におけるポーズ位置を精度よく推定することを課題とする。
前記した課題を解決するため、本発明は、ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出部と、入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを記憶する記憶部と、前記第1の抽出部により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置推定モデルを用いて、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定部と、前記ポーズ位置の推定の結果を出力する出力部とを備えることを特徴とする。
本発明によれば、文におけるポーズ位置を精度よく推定することができる。
図1は、推定装置の構成例を示す図である。 図2は、ポーズ位置の推定対象のデータの例を示す図である。 図3Aは、図1の推定装置における学習用データの例を示す図である。 図3Bは、図1の推定装置におけるポーズ位置の推定の結果の例を示す図である。 図4は、図1の複合語リストの例を示す図である。 図5は、図1の第1の特徴量抽出部の構成例を示す図である。 図6は、複合語特徴量が付加された入力データの例を示す図である。 図7は、アクセント句特徴量が付加された入力データの例を示す図である。 図8は、複合語特徴量およびアクセント句特徴量が付加された入力データの例を示す図である。 図9は、ポーズ位置推定モデルの学習時における推定装置の処理手順の例を示すフローチャートである。 図10は、ポーズ位置の推定時における推定装置の処理手順の例を示すフローチャートである。 図11は、複合語リストの作成手順の例を示すフローチャートである。 図12は、推定プログラムを実行するコンピュータの構成例を示す図である。
以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、以下に示す実施形態に限定されない。
[概要]
図1を参照しながら、推定装置10の概要を説明する。推定装置10は、文におけるポーズ位置を推定するためのモデル(ポーズ位置推定モデル132)を用いて、文におけるポーズ位置を推定する。ここで、推定装置10は、ポーズ位置推定モデル132を学習する際、文におけるポーズ位置(正解となるポーズ位置)と、当該文におけるひとかたまりで読むべき複合語の位置の特徴量およびアクセント句の位置の特徴量を用いる。
そして、上記のポーズ位置推定モデル132の学習後、推定装置10が、ポーズ位置の推定対象となる文の入力を受け付けると、当該文における上記の各特徴量を抽出し、抽出した各特徴量と、ポーズ位置推定モデル132とを用いて、当該文のポーズ位置を推定する。なお、文に含まれる語のうち、どの語が、ひとかたまりでよむべき複合語かは、事前に用意された複合語リスト131(図3参照)を参照して特定する。
推定装置10は、上記のように、文においてひとかたまりで読むべき複合語の位置の特徴量とアクセント句の位置の特徴量とを用いて、当該文におけるポーズ位置の推定を行うので、当該文におけるポーズの位置を精度よく推定することができる。
[構成例]
図1を用いて、推定装置10の構成例を説明する。推定装置10は、入力部11と、出力部12と、記憶部13と、制御部14とを備える。
入力部11は、制御部14が用いる各種データの入力を受け付ける。例えば、入力部11は、ポーズ位置推定モデル132の学習に用いる学習用データや、ポーズ位置の推定対象の文のデータの入力を受け付ける。
図2を用いて、入力部11への入力データの例を説明する。ここでは、入力データが、ポーズ位置の推定対象の文のデータである場合について説明する。
入力データは、例えば、テキスト文に対する形態素解析の結果(例えば、表記および品詞)と、当該テキスト文におけるアクセント句境界の情報とが付与されたデータである。なお、図2においてアクセント句境界となる語には「A」が付与されている。
なお、入力データが、学習用データである場合、入力データは、例えば、図3Aに示すように、アクセント句境界の情報に加え、正解となるポーズ位置の情報(ポーズラベル「P」)が付与されたデータである。
図1の説明に戻る。出力部12は、制御部14による処理結果を出力する。例えば、出力部12は、制御部14により推定された、文のポーズ位置(ポーズ位置の推定の結果)を出力する。
図3Bを用いて、出力データの例を説明する。出力データは、例えば、入力データ(図2参照)に対し、ポーズ位置の推定の結果を示す情報(ポーズラベル「P」)が付与されたデータである。なお、上記のポーズ位置の推定の結果を示す情報は、当該ポーズが短いポーズであるか、長いポーズであるかに示す情報を含んでいてもよい。例えば、ポーズラベルとして、当該ポーズが長いポーズか短いポーズであるかを示すラベルが付与されてもよい。
図1の説明に戻る。記憶部13は、制御部14が参照する各種情報を記憶する。例えば、記憶部13は、複合語リスト131を記憶する。また、制御部14によりポーズ位置推定モデル132が生成されると、記憶部13の所定領域には、ポーズ位置推定モデル132が格納される。
複合語リスト131は、上記のとおり、ひとかたまりで読むべき複合語(形態素のかたまり)を示したリストである。この複合語リスト131の例を、図4を用いて説明する。
複合語リスト131は、例えば、図4に示すように、ひとかたまりで読むべき複合語の先頭表記とその先頭表記に続く後続表記リストと対応付けて示した情報である。なお、後続表記リストにおける「\t(タブ)」は、後続表記における形態素の境界を示し、「,」は区切りを示す。例えば、図4に示す複合語リストの1行目の情報は、「夏の甲子園」を示し、2行目の情報は「東京大学」および「東京国税局」を示す。
図1の説明に戻る。ポーズ位置推定モデル132は、入力された文において、ひとかたまりで読むべき複合語の位置の特徴量(複合語特徴量)およびアクセント句の位置の特徴量(アクセント句特徴量)と、当該文におけるポーズ位置との関連性を示したモデルである。このポーズ位置推定モデル132は、モデル学習部144が学習用データを用いた学習を行うことにより生成される。
制御部14は、学習部141と推定部142とを備える。学習部141は、学習用データを用いてポーズ位置推定モデル132の学習を行う。推定部142は、ポーズ位置推定モデル132を用いて、入力された文のポーズ位置を推定する。
[学習部]
まず、学習部141を説明する。学習部141は、特徴量抽出部(第2の抽出部)143と、モデル学習部144とを備える。
特徴量抽出部143は、文から複合語特徴量およびアクセント句特徴量を抽出する。例えば、特徴量抽出部143は、文の形態素情報およびアクセント句境界の情報が付与されたデータから、複合語リスト131を利用して、ポーズ位置の推定に必要となる複合語特徴量を抽出する。また、特徴量抽出部143は、当該データからアクセント句特徴量を抽出する。
図5を用いて、特徴量抽出部143の構成例を説明する。特徴量抽出部143は、例えば、図5に示すように、複合語特徴量抽出部1431と、アクセント句特徴量抽出部1432と、特徴量集約部1433とを備える。
[複合語特徴量抽出部]
複合語特徴量抽出部1431は、複合語リスト131を用いて、文から当該文の複合語特徴量を抽出する。
例えば、複合語特徴量抽出部1431は、文の形態素情報およびアクセント境界情報を含む解析済テキスト(図2参照)の入力を受け付けると、複合語リスト131(図4参照)を参照し、当該文を構成する形態素のうち、どこからどこまでの形態素が、ひとかたまりで読むべき複合語であるかを判断し、その判断結果を複合語特徴量として抽出する。この複合語特徴量抽出部1431による複合語特徴量の抽出処理の例を、図2、図4、図6を参照しながら説明する。
例えば、複合語特徴量抽出部1431は、図2に示す入力データを受け付けると、当該入力データの形態素情報の「表記」をキーとして、図4に示す複合語リスト131の「先頭表記」を検索し、当該先頭表記に対応付けられた「後続表記リスト」を取得する。
ここで、複合語リスト131に、マッチするエントリがなければ、複合語特徴量抽出部1431は、当該表記に関する複合語特徴量の値として「О」を付与し、次の形態素に対して同様の処理を実施する。
例えば、図2に示す入力データにおける、表記「4」、「回」、「目」および「の」は、図4に示す複合語リスト131の「先頭表記」にマッチするエントリがない。よって、複合語特徴量抽出部1431は、図6に示すように、表記「4」、「回」、「目」および「の」に対する複合語特徴量として「О」を付与する。
一方、複合語特徴量抽出部1431は、図2に示す入力データの形態素情報の「表記」と、図4に示す複合語リスト131の「先頭表記」とがマッチし、かつ、当該「表記」に続く表記が、当該先頭表記の後続表記リストにマッチした場合、先頭表記に「B」を付与し、それ以外のマッチした箇所に「I」を付与する。
例えば、図2に示す入力データにおける、表記「夏」は、図4に示す複合語リスト131の1行目のエントリの先頭表記にマッチし、その後に続く「の」および「甲子園」は、当該先頭表記の後続表記リストにマッチする。よって、複合語特徴量抽出部1431は、図9に示すように、表記「夏」に「B」を付与し、「の」および「甲子園」それぞれに「I」を付与する。
なお、この「B」、「I」、「O」のタグ付与は、自然言語処理の固有表現抽出等で一般的に使われる方法であり、例えば、非特許文献3等に記載されている。
[アクセント句特徴量抽出部]
図5の説明に戻り、アクセント句特徴量抽出部1432を説明する。アクセント句特徴量抽出部1432は、文のアクセント句特徴量を抽出する。例えば、アクセント句特徴量抽出部1432は、文の形態素情報およびアクセント境界情報を含む解析済テキストの入力を受け付けると、当該解析済テキストから、アクセント句の特徴量、当該アクセント句の一つ前のアクセント句の特徴量、当該アクセント句の一つ後のアクセント句の特徴量を抽出する。
換言すると、アクセント句特徴量抽出部1432は、文に含まれるアクセント句について、当該アクセント句はどのような品詞か、当該アクセント句の前のアクセント句はどのような品詞か、当該アクセント句の後のアクセント句はどのような品詞かを示した情報を、アクセント句特徴量として抽出する(図7参照)。
例えば、アクセント句特徴量抽出部1432は、入力データに含まれる各形態素に対し、当該形態素がアクセント句境界である場合に、以下の手順で特徴量を抽出する。なお、当該形態素がアクセント句境界ではない場合、アクセント句特徴量抽出部1432は、ハイフン等の対象外を表すラベルを付与する。
図7を参照しながら、アクセント句特徴量抽出部1432による当該アクセント句、当該アクセント句の一つ前のアクセント句、および、当該アクセント句の一つ後のアクセント句の特徴量を抽出する処理の例を説明する。
[アクセント句特徴量(当該)の抽出]
まず、当該アクセント句の特徴量(アクセント句特徴量(当該))の抽出について説明する。
例えば、アクセント句境界の品詞が、格助詞もしくは読点の場合、アクセント句特徴量抽出部1432は、「格助詞」とその表記を連結し(例えば、図7に示す「格助詞:の」)、アクセント句境界より前に出現する内容語の主品詞と連結したものを、当該アクセント句特徴量として抽出する(例えば、図7に示す「名詞-格助詞:の」)。なお、主品詞とは、主となる品詞であり、例えば、図7に示す各品詞における「:」を含まない先頭の品詞である。
また、アクセント句境界の品詞が、句点の場合、アクセント句特徴量抽出部1432は、「句点」を当該アクセント句特徴量として抽出する。また、アクセント句境界の品詞が上記以外の場合、アクセント句特徴量抽出部1432は、アクセント句境界より前に出現する内容語の主品詞を当該アクセント句特徴量として抽出する。
[アクセント句特徴量(一つ前)の抽出]
次に、当該アクセント句の一つ前のアクセント句の特徴量(アクセント句特徴量(一つ前))の抽出について説明する。
例えば、アクセント句特徴量抽出部1432は、一つ前のアクセント句境界の「アクセント句特徴量(当該)」を、当該アクセント句の「アクセント句特徴量(一つ前)」として抽出する。なお、当該アクセント句境界より前にアクセント句境界が存在しない場合、アクセント句特徴量抽出部1432は、「アクセント句特徴量(一つ前)」として、図7に示すようにBOS(先頭を表すラベル)を付与する。
[アクセント句特徴量(一つ後)の抽出]
次に、当該アクセント句の一つ後のアクセント句の特徴量(アクセント句特徴量(一つ後))の抽出について説明する。
例えば、アクセント句特徴量抽出部1432は、一つ後のアクセント句境界の「アクセント句特徴量(当該)」を、当該アクセント句の「アクセント句特徴量(一つ後)」として抽出する。なお、当該アクセント句境界が最後のアクセント句境界の場合、アクセント句特徴量抽出部1432は、当該アクセント句境界の「アクセント句特徴量(一つ後)」として、図7に示すように「EOS(文末を表すラベル)」を付与する。
図5の説明に戻る。特徴量集約部1433は、複合語特徴量抽出部1431により抽出された複合語特徴量と、アクセント句特徴量抽出部1432により抽出されたアクセント句特徴量とを集約する。例えば、特徴量集約部1433は、図6に示す複合語特徴量と、図7に示すアクセント句特徴量とを集約し、図8に示す特徴量を生成する。
図1の説明に戻る。モデル学習部144は、特徴量抽出部143により、入力データから抽出された複合語特徴量およびアクセント句特徴量(図8参照)と、当該入力データにおけるポーズ位置の正解データ(図3A参照)とを用いて、ポーズ位置推定モデル132を学習する。
例えば、モデル学習部144は、抽出した各特徴量と正解データとを学習用データとし、既存の機械学習手法(例えば、CRF(Conditional Random Fields))を用いて、各特徴量とポーズ位置の関係をモデル化し、ポーズ位置推定モデル132を生成する。生成したポーズ位置推定モデル132は、記憶部13に格納される。
[推定部]
次に、推定部142を説明する。推定部142は、特徴量抽出部(第1の抽出部)145と、ポーズ位置推定部146とを備える。
特徴量抽出部145は、特徴量抽出部143と同様に、入力された文から複合語特徴量およびアクセント句特徴量を抽出する。つまり、特徴量抽出部145は、複合語特徴量抽出部1431、アクセント句特徴量抽出部1432および特徴量集約部1433(図5参照)を備え、これらの構成により、ポーズ位置の推定対象の文から、複合語特徴量およびアクセント句特徴量を抽出する。
特徴量抽出部145による、複合語特徴量およびアクセント句特徴量の抽出は、前記した特徴量抽出部143と同様なので説明を省略する。なお、ポーズ位置の推定対象の文は、上記のとおり、例えば、テキスト文に対する形態素解析の結果と、当該テキスト文におけるアクセント句境界の情報とが付与されたデータ(例えば、図2参照)である。
ポーズ位置推定部146は、特徴量抽出部145により抽出された複合語特徴量およびアクセント句特徴量と、ポーズ位置推定モデル132とを用いて、ポーズ位置の推定対象の文におけるポーズ位置を推定する。そして、ポーズ位置推定部146は、推定対象の文におけるポーズ位置の推定の結果(例えば、図3B)を出力部12経由で出力する。
[処理手順]
次に、図9および図10を用いて、推定装置10の処理手順の例を説明する。まず、図9を用いて推定装置10が、ポーズ位置推定モデル132を学習する際の処理手順の例を説明する。
推定装置10の入力部11が、ポーズ位置の正解データを含む学習用データの入力を受け付けると(S1)、特徴量抽出部143は、当該学習用データの複合語特徴量およびアクセント句特徴量を抽出する(S2)。つまり、複合語特徴量抽出部1431は、複合語リスト131を参照して、S1で入力された学習用データの複合語特徴量を抽出する。また、アクセント句特徴量抽出部1432は、S1で入力された学習用データのアクセント句特徴量を抽出する。
S2の後、モデル学習部144は、S1で受け付けた学習用データに含まれるポーズ位置の正解データと、S2で抽出された各特徴量(複合語特徴量およびアクセント句特徴量)とを用いて、ポーズ位置推定モデル132を学習する(S3)。このようにすることで推定装置10は、ポーズ位置推定モデル132を生成する。
次に、図10を用いて、推定装置10が、文におけるポーズ位置の推定を行う際の処理手順の例を説明する。
推定装置10の入力部11が、ポーズ位置の推定対象の文の入力を受け付けると(S11)、特徴量抽出部145は、S11で入力された文における、複合語特徴量およびアクセント句特徴量を抽出する(S12)。つまり、複合語特徴量抽出部1431は、複合語リスト131を参照して、S11で入力された文から、複合語特徴量を抽出する。また、アクセント句特徴量抽出部1432は、S11で入力された文から、アクセント句特徴量を抽出する。
S12の後、ポーズ位置推定部146は、S12で抽出された各特徴量(複合語特徴量およびアクセント句特徴量)に基づき、ポーズ位置推定モデル132を用いて、S11で入力された文(推定対象の文)のポーズ位置を推定する(S13)。そして、ポーズ位置推定部146は、S11で入力された文におけるポーズ位置の推定の結果(例えば、図3B)を出力部12経由で出力する(S14)。
このようにすることで、推定装置10は、文におけるポーズの位置を推定することができる。
[複合語リストの作成方法]
なお、複合語リスト131は、以下に示す方法で作成することも可能である。例えば、複合語リスト131を作成する装置は、新聞記事やblog等の大量のテキストデータの入力を受け付けると、当該テキストデータの形態素解析を行う(図11のS21)。
次に、当該装置は、S21で形態素解析が行われたテキストから、複合語候補の抽出を行う(S22)。例えば、当該装置は、S21で形態素解析が行われたテキストから、「品詞が名詞もしくは未知語の連続」、「名詞連続の後に格助詞の「の」があり、名詞連続が後続する」等の複合語抽出ルールによって、形態素境界情報を含めた形で複合語候補を抽出する。例えば、当該装置は、テキストから、「東京\t大学」等を抽出する。
S22の後、当該装置は、S22で抽出した複合語候補それぞれのスコアリングを行う(S23)。例えば、当該装置は、非特許文献4等に記載の技術により、C-Value等を用いた連語(コロケーション)のスコアリングを行う。
S23の後、当該装置は、S23におけるスコアリングの結果を用いて、スコアが所定の閾値以上の複合語候補を抽出し、抽出した複合語候補における先頭の形態素を「先頭表記」、残りを後続表記として複合語リスト131に登録する。なお、同じ先頭表記のエントリが存在する場合、当該装置は、後続表記を「,」で区切って複合語リスト131に登録する。
このようにすることで、複合語リスト131を作成することができる。上記の複合語リスト131の作成は、推定装置10で行ってもよいし、推定装置10以外の装置で行ってもよい。
[その他の実施形態]
なお、前記した実施形態において推定装置10が学習部141を備える場合について説明したが、これに限定されない。例えば、推定装置10は、学習部141を備えず、他の装置により学習されたポーズ位置推定モデル132を用いて、ポーズ位置の推定を行ってもよい。また、推定装置10は、推定部142を備えず、学習部141により学習されたポーズ位置推定モデル132を用いたポーズ位置の推定は、他の装置で行ってもよい。
[システム構成等]
また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
前記した推定装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を前記した実施形態の推定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
また、推定装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図12は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の推定装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、推定装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられるモデルやデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワされたーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 推定装置
11 入力部
12 出力部
13 記憶部
14 制御部
131 複合語リスト
132 ポーズ位置推定モデル
141 学習部
142 推定部
143,145 特徴量抽出部
144 モデル学習部
146 ポーズ位置推定部

Claims (7)

  1. ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出部と、
    入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを記憶する記憶部と、
    前記第1の抽出部により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置推定モデルを用いて、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定部と、
    前記ポーズ位置の推定の結果を出力する出力部と
    を備えることを特徴とする推定装置。
  2. 前記第1の抽出部は、
    前記ひとかたまりで読むべき複合語を示した複合語リストを参照して、前記第1の特徴量を抽出する
    ことを特徴とする請求項1に記載の推定装置。
  3. 前記アクセント句の位置の特徴量は、
    前記文における当該アクセント句の前および後に存在するアクセント句の情報をさらに含む
    ことを特徴とする請求項1に記載の推定装置。
  4. 前記アクセント句の位置の特徴量は、
    前記アクセント句の品詞を示す情報を含むこと
    を特徴とする請求項3に記載の推定装置。
  5. 学習用データである文から、前記第1の特徴量および前記第2の特徴量を抽出する第2の抽出部と、
    前記学習用データである文から抽出された前記第1の特徴量および前記第2の特徴量と、当該文におけるポーズ位置の正解データとを用いて、前記ポーズ位置推定モデルを学習するモデル学習部と
    をさらに備えることを特徴とする請求項1に記載の推定装置。
  6. 推定装置により実行される推定方法であって、
    ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出工程と、
    入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを用いて、前記第1の抽出工程により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定工程と、
    前記ポーズ位置の推定の結果を出力する出力工程と
    を含むことを特徴とする推定方法。
  7. ポーズ位置の推定対象の文から、ひとかたまりで読むべき複合語の位置の特徴量である第1の特徴量およびアクセント句の位置の特徴量である第2の特徴量を抽出する第1の抽出工程と、
    入力された文における、前記第1の特徴量および前記第2の特徴量と、前記文のポーズ位置との関連を示したポーズ位置推定モデルを用いて、前記第1の抽出工程により抽出された前記第1の特徴量および前記第2の特徴量に基づき、前記ポーズ位置の推定対象の文におけるポーズ位置を推定する推定工程と、
    前記ポーズ位置の推定の結果を出力する出力工程と
    をコンピュータに実行させるための推定プログラム。
JP2022558818A 2020-11-02 2020-11-02 推定装置、推定方法、および、推定プログラム Active JP7494935B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/041122 WO2022091422A1 (ja) 2020-11-02 2020-11-02 推定装置、推定方法、および、推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2022091422A1 JPWO2022091422A1 (ja) 2022-05-05
JP7494935B2 true JP7494935B2 (ja) 2024-06-04

Family

ID=81382150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022558818A Active JP7494935B2 (ja) 2020-11-02 2020-11-02 推定装置、推定方法、および、推定プログラム

Country Status (2)

Country Link
JP (1) JP7494935B2 (ja)
WO (1) WO2022091422A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099252A (ja) 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3518340B2 (ja) * 1998-06-03 2004-04-12 日本電信電話株式会社 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099252A (ja) 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Also Published As

Publication number Publication date
WO2022091422A1 (ja) 2022-05-05
JPWO2022091422A1 (ja) 2022-05-05

Similar Documents

Publication Publication Date Title
US10418029B2 (en) Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US10176804B2 (en) Analyzing textual data
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US10832657B2 (en) Use of small unit language model for training large unit language models
US8719006B2 (en) Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
JP7100747B2 (ja) 学習データ生成方法および装置
JP5440815B2 (ja) 情報分析装置、情報分析方法、及びプログラム
US9594742B2 (en) Method and apparatus for matching misspellings caused by phonetic variations
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
Hládek et al. Dagger: The slovak morphological classifier
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Mori et al. Language Resource Addition: Dictionary or Corpus?
JP7494935B2 (ja) 推定装置、推定方法、および、推定プログラム
JP2013109364A (ja) Cjk名前検出
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
Mammadov et al. Part-of-speech tagging for azerbaijani language
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Nanayakkara et al. Context aware back-transliteration from english to sinhala
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
Liu et al. Polyphone disambiguation based on maximum entropy model in mandarin grapheme-to-phoneme conversion
JP7135641B2 (ja) 学習装置、抽出装置及び学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240506

R150 Certificate of patent or registration of utility model

Ref document number: 7494935

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150