JP5772514B2 - 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム - Google Patents
形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム Download PDFInfo
- Publication number
- JP5772514B2 JP5772514B2 JP2011239074A JP2011239074A JP5772514B2 JP 5772514 B2 JP5772514 B2 JP 5772514B2 JP 2011239074 A JP2011239074 A JP 2011239074A JP 2011239074 A JP2011239074 A JP 2011239074A JP 5772514 B2 JP5772514 B2 JP 5772514B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- text
- analyzed
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
『先頭−普通名詞「打製(ダセー)」−普通名詞「骨器(コッキ)」−末尾』
のパスの接続評価値が最大(=-2150)となるため、このパスに対応する読み「ダセー・コッキ」が形態素解析の解析結果として出力される。
『先頭−普通名詞「符号(フゴー)」−普通名詞「化法(ケホー)」−末尾』
接続評価値の合計=-2150
・パス2
『先頭−普通名詞「符号(フゴー)」−接尾語「化(カ)」−接尾語「法(ホー)」−末尾』
接続評価値の合計=-2200
この場合、パス2に対応する読み「フゴー・カ・ホー」の方が正しいにも拘わらず、パス1に対応する読み「フゴー・ケホー」が形態素解析の解析結果として出力されることになる。
『普通名詞「打製(ダセー)」−助詞「の」−普通名詞「骨器(コッキ)」』
『普通名詞「多価(タカ)」−助詞「の」−普通名詞「関数(カンスウ)」』
前記単語辞書に各々登録されており、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を前記学習用のテキストから抽出し、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第2記憶部に記憶させる連接可能性判定部を更に備えた請求項1〜請求項3の何れか1項記載の形態素解析装置。
前記第1記憶部は、前記単語辞書として、前記形態素解析の解析精度を考慮して選択された単語の情報が予め登録された第1単語辞書と、前記第1単語辞書に未登録の単語の情報を追加登録するための第2単語辞書と、を記憶し、
前記第2記憶部は、一方が前記第1単語辞書に登録されると共に他方が前記第2単語辞書に登録され、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を、連接可能な単語の組として記憶し、
前記形態素解析部は、一方が前記第1単語辞書に登録されると共に他方が前記第2単語辞書に登録され、前記解析対象のテキスト上で隣接しており、前記連接可能な単語の組として前記第2記憶部に記憶されていない名詞類の単語の組を接続可能性の無い単語の組と判定する請求項1〜請求項3、付記1の何れかに記載の形態素解析装置。
一方が前記第1単語辞書に登録されると共に他方が前記第2単語辞書に登録され、前記学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している名詞類の単語の組を前記学習用のテキストから抽出し、前記学習用のテキストから抽出した名詞類の単語の組の情報を、連接可能な単語の組を表す情報として前記第2記憶部に記憶させる連接可能性判定部を更に備えた付記2に記載の形態素解析装置。
前記特定の単語は、「の」「が」「に」「を」「な」「する」「した」の何れかである請求項1〜請求項3、付記1〜付記3の何れかに記載の形態素解析装置。
12 形態素解析装置
14 形態素解析部
16 単語連接可能性判定部
18 第1単語辞書
20 第2単語辞書
22 第1記憶部
24 単語連接可能性テーブル
26 第2記憶部
28 単語品詞間接続評価値テーブル
30 第3記憶部
32 解析対象テキスト
34 学習用テキストコーパス
36 第4記憶部
38 係り受け解析部
40 表音文字列生成部
42 音声合成部
44 メモリ
46 記憶部
58 音声合成プログラム
60 形態素解析プロセス
70 コンピュータ
72 CPU
Claims (6)
- 複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録された単語辞書を記憶する第1記憶部と、
前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している、普通名詞、固有名詞、接頭語及び接尾語を含む名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部と、
単語の組の接続可能性を表す接続評価値を前記単語の組における個々の前記単語の品詞の組み合わせ毎に記憶する第3記憶部と、
前記単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組の接続可能性を評価すると共に、前記単語辞書に各々登録され、かつ前記解析対象のテキスト上で隣接している単語の組のうち、前記連接可能な単語の組として前記第2記憶部に記憶されていない前記名詞類の単語の組については、接続可能性の無い単語の組と判定し、接続可能性の評価結果に基づいて、前記解析対象のテキストの形態素解析を行う形態素解析部と、
を含み、
前記形態素解析部は、前記解析対象のテキストに含まれる単語を前記単語辞書から各々抽出し、前記単語辞書より抽出した単語から前記解析対象のテキスト上で隣接している単語の組を各々生成し、生成した単語の組における個々の前記単語の品詞の組み合わせに対応する前記接続評価値を前記第3記憶部から読み出すことで、前記単語の組の前記接続評価値を各々求め、単語の組毎に求めた前記接続評価値に基づき前記解析対象のテキストに対応しかつ前記接続評価値が最大となる単語の組み合わせを求める形態素解析装置。 - 請求項1記載の形態素解析装置と、
前記形態素解析装置による前記形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析部と、
前記係り受け解析部による係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成部と、
前記表音文字列生成部によって生成された前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成部と、
を含む音声合成装置。 - コンピュータが、
複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録され、第1記憶部に記憶された単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組の接続可能性を評価すると共に、前記単語辞書に各々登録され、かつ前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している、普通名詞、固有名詞、接頭語及び接尾語を含む名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部に、前記連接可能な単語の組として記憶されていない前記名詞類の単語の組については、接続可能性の無い単語の組と判定し、接続可能性の評価結果に基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップを含み、
前記形態素解析ステップは、前記解析対象のテキストに含まれる単語を前記単語辞書から各々抽出し、前記単語辞書より抽出した単語から前記解析対象のテキスト上で隣接している単語の組を各々生成し、単語の組の接続可能性を表す接続評価値を前記単語の組における個々の前記単語の品詞の組み合わせ毎に記憶する第3記憶部から、生成した単語の組における個々の前記単語の品詞の組み合わせに対応する前記接続評価値を読み出すことで、前記単語の組の前記接続評価値を各々求め、単語の組毎に求めた前記接続評価値に基づき前記解析対象のテキストに対応しかつ前記接続評価値が最大となる単語の組み合わせを求める形態素解析方法。 - コンピュータが、
複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録され、第1記憶部に記憶された単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組の接続可能性を評価すると共に、前記単語辞書に各々登録され、かつ前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している、普通名詞、固有名詞、接頭語及び接尾語を含む名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部に、前記連接可能な単語の組として記憶されていない前記名詞類の単語の組については、接続可能性の無い単語の組と判定し、接続可能性の評価結果に基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
前記形態素解析ステップによる形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析ステップと、
前記係り受け解析ステップによる前記係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成ステップと、
前記表音文字列生成ステップで生成した前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成ステップと、
を含み、
前記形態素解析ステップは、前記解析対象のテキストに含まれる単語を前記単語辞書から各々抽出し、前記単語辞書より抽出した単語から前記解析対象のテキスト上で隣接している単語の組を各々生成し、単語の組の接続可能性を表す接続評価値を前記単語の組における個々の前記単語の品詞の組み合わせ毎に記憶する第3記憶部から、生成した単語の組における個々の前記単語の品詞の組み合わせに対応する前記接続評価値を読み出すことで、前記単語の組の前記接続評価値を各々求め、単語の組毎に求めた前記接続評価値に基づき前記解析対象のテキストに対応しかつ前記接続評価値が最大となる単語の組み合わせを求める音声合成方法。 - コンピュータに、
複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録され、第1記憶部に記憶された単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組の接続可能性を評価すると共に、前記単語辞書に各々登録され、かつ前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している、普通名詞、固有名詞、接頭語及び接尾語を含む名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部に、前記連接可能な単語の組として記憶されていない前記名詞類の単語の組については、接続可能性の無い単語の組と判定し、接続可能性の評価結果に基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップを含み、
前記形態素解析ステップは、前記解析対象のテキストに含まれる単語を前記単語辞書から各々抽出し、前記単語辞書より抽出した単語から前記解析対象のテキスト上で隣接している単語の組を各々生成し、単語の組の接続可能性を表す接続評価値を前記単語の組における個々の前記単語の品詞の組み合わせ毎に記憶する第3記憶部から、生成した単語の組における個々の前記単語の品詞の組み合わせに対応する前記接続評価値を読み出すことで、前記単語の組の前記接続評価値を各々求め、単語の組毎に求めた前記接続評価値に基づき前記解析対象のテキストに対応しかつ前記接続評価値が最大となる単語の組み合わせを求める処理を実行させるための形態素解析プログラム。 - コンピュータに、
複数の単語が少なくとも個々の前記単語の品詞と対応付けて各々登録され、第1記憶部に記憶された単語辞書に各々登録され、かつ解析対象のテキスト上で隣接している単語の組の接続可能性を評価すると共に、前記単語辞書に各々登録され、かつ前記解析対象のテキスト上で隣接している単語の組のうち、前記単語辞書に各々登録されており、学習用のテキスト上で特定の単語を挟んで前記特定の単語と隣接している、普通名詞、固有名詞、接頭語及び接尾語を含む名詞類の単語の組を、連接可能な単語の組として記憶する第2記憶部に、前記連接可能な単語の組として記憶されていない前記名詞類の単語の組については、接続可能性の無い単語の組と判定し、接続可能性の評価結果に基づいて、前記解析対象のテキストの形態素解析を行う形態素解析ステップと、
前記形態素解析ステップによる形態素解析の結果に基づき、前記解析対象のテキストに対して係り受け解析を行う係り受け解析ステップと、
前記係り受け解析ステップによる前記係り受け解析の結果に基づき、前記解析対象のテキストの読みを表す文字列に、少なくとも文節の区切りを表す情報を付加した表音文字列を生成する表音文字列生成ステップと、
前記表音文字列生成ステップで生成した前記表音文字列に基づき、前記表音文字列を読み上げる音声を合成する音声合成ステップと、
を含み、
前記形態素解析ステップは、前記解析対象のテキストに含まれる単語を前記単語辞書から各々抽出し、前記単語辞書より抽出した単語から前記解析対象のテキスト上で隣接している単語の組を各々生成し、単語の組の接続可能性を表す接続評価値を前記単語の組における個々の前記単語の品詞の組み合わせ毎に記憶する第3記憶部から、生成した単語の組における個々の前記単語の品詞の組み合わせに対応する前記接続評価値を読み出すことで、前記単語の組の前記接続評価値を各々求め、単語の組毎に求めた前記接続評価値に基づき前記解析対象のテキストに対応しかつ前記接続評価値が最大となる単語の組み合わせを求める処理を実行させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011239074A JP5772514B2 (ja) | 2011-10-31 | 2011-10-31 | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011239074A JP5772514B2 (ja) | 2011-10-31 | 2011-10-31 | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097533A JP2013097533A (ja) | 2013-05-20 |
JP5772514B2 true JP5772514B2 (ja) | 2015-09-02 |
Family
ID=48619424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011239074A Active JP5772514B2 (ja) | 2011-10-31 | 2011-10-31 | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5772514B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62203276A (ja) * | 1986-03-03 | 1987-09-07 | Nec Corp | 形態素解析装置 |
JPH02147056A (ja) * | 1988-11-29 | 1990-06-06 | Shimadzu Corp | 外科用手術台のスライド機構 |
JPH04326160A (ja) * | 1991-04-25 | 1992-11-16 | Ricoh Co Ltd | 形態素解析装置 |
JP3880087B2 (ja) * | 1995-11-28 | 2007-02-14 | 富士通株式会社 | 形態素解析装置 |
JP4053440B2 (ja) * | 2003-02-26 | 2008-02-27 | 富士通株式会社 | テキスト音声合成システム及び方法 |
JP4953440B2 (ja) * | 2007-04-27 | 2012-06-13 | ヤフー株式会社 | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 |
-
2011
- 2011-10-31 JP JP2011239074A patent/JP5772514B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013097533A (ja) | 2013-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8041559B2 (en) | System and method for disambiguating non diacritized arabic words in a text | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP5625827B2 (ja) | 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム | |
JP2009223463A (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
Alghamdi et al. | Automatic restoration of arabic diacritics: a simple, purely statistical approach | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
JP5853595B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
Al-Mannai et al. | Unsupervised word segmentation improves dialectal Arabic to English machine translation | |
JP5642037B2 (ja) | 検索装置、検索方法およびプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
Thangarasu et al. | Design and development of stemmer for Tamil language: cluster analysis | |
JP2013134753A (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP5772514B2 (ja) | 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム | |
CN106294310B (zh) | 一种藏语声调预测方法及系统 | |
Tuan et al. | A study of text normalization in Vietnamese for text-to-speech system | |
JP6055267B2 (ja) | 文字列分割装置、モデルファイル学習装置および文字列分割システム | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
KR100487716B1 (ko) | 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치 | |
Ramachandran et al. | An iterative suffix stripping Tamil stemmer | |
Jansche et al. | Named entity transcription with pair n-gram models | |
KR100322743B1 (ko) | 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치 | |
JP2019159118A (ja) | 出力プログラム、情報処理装置及び出力制御方法 | |
Kaalep et al. | You can’t suggest that?!: Comparisons and improvements of speller error models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5772514 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |