JP6556411B2 - 読み推定装置 - Google Patents
読み推定装置 Download PDFInfo
- Publication number
- JP6556411B2 JP6556411B2 JP2019514330A JP2019514330A JP6556411B2 JP 6556411 B2 JP6556411 B2 JP 6556411B2 JP 2019514330 A JP2019514330 A JP 2019514330A JP 2019514330 A JP2019514330 A JP 2019514330A JP 6556411 B2 JP6556411 B2 JP 6556411B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- morpheme
- information
- symbol
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 claims description 168
- 238000001514 detection method Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 241000102542 Kara Species 0.000 description 4
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
実施の形態1.
図1は、本実施の形態による読み推定装置を示す構成図である。
本実施の形態による読み推定装置は、図示のように、テキスト入力部1、形態素解析部2、言語辞書3、単位表現テーブル検索部4、単位表現テーブル5、読み解析部6を備える。
テキスト入力部1は、読みの推定対象となるテキスト情報を取得する処理部である。すなわち、テキスト入力部1は、読み推定の対象となる任意のテキスト情報を取得し、入力テキスト情報1aとして出力する。入力テキスト情報1aは、漢字やひらがな、アルファベット、数字、記号などを含む読み推定可能な任意のテキストの情報であれば良い。
図2に単位表現テーブル5の一例を示す。図示の単位表現テーブル5は、記号501とルール502と単位表現503と設定値504の列からなるテーブルである。
記号501の列には、該当する記号の表記の情報が格納される。例えば、図示例では複数の読み方がある記号の表記「−」が格納されている。
ルール502の列には、記号情報502aと、記号情報502aに対応付けられた数詞情報502bと、記号情報502aと数詞情報502bに対応付けられた単位表現情報502cが格納されている。記号情報502aは、記号501の列に格納されている記号の識別情報である。数詞情報502bは、形態素の品詞情報のうち数量を表す品詞を示す情報である。また、単位表現情報502cは単位表現503の列に格納されている値のいずれかを示す情報である。
単位表現503の列は、単位の種類を示す値が格納され、図示例では「年」「月」「日」…といった値が行毎に格納されている。設定値504は、単位表現503の各行の値に対応した読み設定を示す値である。ここでは「1」はその記号の読み飛ばし設定であり、「0」はその記号の読み飛ばしを行わない設定としている。
単位表現は、例えば「人(にん)」、「年(ねん)」、「歳(さい)」等の単位の表記であり、単位表現を表す列の各行に値として格納される。また、記号の読み設定を表す値は、例えば、読み飛ばしを行う場合を「1」、読み飛ばしを行わない場合を「0」といったように2値で表現し、記号の読み設定を表す列の各行に値として格納される。記号の読み設定を表す値は、例えば該記号の読みを表す情報をそのまま記述してもよく、例えば記号「〜」に対する読み設定値として読み情報「から」や「kara」を設定することもできる。
図示の構成は、プロセッサ101、メモリ102、ストレージ103、入力インタフェース104、出力インタフェース105、バス106を備える。プロセッサ101は、テキスト入力部1、形態素解析部2、単位表現テーブル検索部4及び読み解析部6に対応したプログラムを実行し、これらの機能部を実現するためのCPUからなる演算装置である。メモリ102は、種々のプログラムをプロセッサ101がストレージ103から読み込んでプロセッサ101の作業領域を構成すると共に、プロセッサ101が処理するための各種のデータを記憶するためのメモリである。ストレージ103は、言語辞書3と単位表現テーブル5の格納部を構成すると共に、テキスト入力部1、形態素解析部2、単位表現テーブル検索部4及び読み解析部6に対応したプログラムを格納するための記憶部である。入力インタフェース104は、読みの推定対象となるテキストを入力するためのインタフェースであり、この入力インタフェース104を介してプロセッサ101がテキスト情報を読み込むことによりテキスト入力部1が実現されている。出力インタフェース105は読み情報6aを出力するためのインタフェースである。また、バス106は、プロセッサ101と、ストレージ103、入力インタフェース104、出力インタフェース105とを相互に通信接続するための通信路である。
なお、図4の例では、プロセッサ101によって、テキスト入力部1と形態素解析部2と単位表現テーブル検索部4と読み解析部6とを実現したが、これらの構成を電気回路として実現してもよい。
テキスト入力部1で、読みの推定対象となるテキストを取得し、これを入力テキスト情報1aとして出力する(ステップST1)。これにより、形態素解析部2は、言語辞書3を参照して、入力テキスト情報1aのテキストを形態素単位に分割し、形態素列情報を第1の形態素列情報2aとして出力する(ステップST2)。例えば、図6に、第1の形態素列情報2aの一例として形態素列情報例201を示す。この形態素列情報例201は、入力テキスト「政策決定会合−28日から」を形態素分割した結果である。形態素列情報例201は、形態素「政策」「決定」「会合」「−」「28」「日」「から」によって構成され、各形態素は、入力テキストに対応する表記と、表記に対応する品詞情報(例えば、表記「政策」に対する品詞情報「名詞」)と、表記の読み方を表す読み情報(例えば、表記「政策」に対する読み情報「せーさく」)とを持つ。
ステップST4において、単位表現テーブル検索部4は、第1の形態素列情報2aにおける各形態素の表記のいずれかが、単位表現テーブル5に格納された記号と一致した場合はステップST7の処理を行う。一方、第1の形態素列情報2aにおける各形態素の表記のいずれとも、単位表現テーブル5に格納された記号が一致しなかった場合、単位表現テーブル検索部4はステップST5の処理を行う。
実施の形態2は、実施の形態1の構成に加えて、推定対象となるテキストのジャンルとスタイルを考慮して読み情報を求めるようにしたものである。
図7は、実施の形態2の読み推定装置を示す構成図である。
実施の形態2の読み推定装置は、テキスト入力部1、形態素解析部2、言語辞書3、単位表現テーブル検索部40、単位表現テーブル50、読み解析部6、ジャンル及びスタイル検出部7を備える。ここで、ジャンル及びスタイル検出部7と単位表現テーブル検索部40と単位表現テーブル50以外の構成は実施の形態1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
図8に単位表現テーブル50の一例を示す。図示の単位表現テーブル例は、ジャンル毎に設定された場合の構成例であり、記号511、ルール512、単位表現513、設定値514の関係を示している。ここで、記号511、ルール512、単位表現513のそれぞれの列については、実施の形態1における図2及び図3の単位表現テーブル5の記号501、ルール502、単位表現503の列と同様である。
なお、これらの読み設定を表す設定値514は、例えば記号511の読みを表す情報をそのまま記述してもよく、例えば記号「〜」に対する設定値514として、読み情報「から」や「kara」を設定することもできる。
設定値524は、単位表現523の各行に対応したスタイル毎の設定値を示しており、図9では「見出し」「本文」のスタイルが設定されている。ここで、スタイルとは、例えば「見出し」や「本文」のような、入力テキスト情報の様式を表す情報である。読み設定を表す「1」「0」は、記号の読み飛ばし設定を行うか、記号の読み飛ばし設定を行わないかを示す値である。
ジャンル及びスタイル検出部7は、入力テキスト情報1aを参照し、入力テキストが表すジャンルやスタイルを表す情報を検出する処理部である。ここで、ジャンルとしては、例えば「経済」のような表記や、特定のジャンルと紐付けられたID等の情報を示す表記や数値で表される。スタイルとしては、例えば「見出し」や「title」のような表記や、特定のスタイルと紐付けられたID等の情報を示す表記や数値で表される。ジャンルは、予め登録したそのジャンル特有の表記が入力テキスト情報1aに含まれているか否かを判定することで取得してもよいし、そのジャンル特有の表記が含まれている頻度により推定してもよい。また、入力テキスト情報1aがHTMLで記述されており、テキストのヘッダ情報としてジャンルを表す情報が付加されている場合は、その情報を用いて取得してもよい。
また、ジャンル及びスタイル検出部7は、テキスト情報からジャンルやスタイルを表す情報を検出、推定、判定、抽出できるような公知の技術を用いてもよい。
また、実施の形態2では、ジャンル及びスタイル検出部7が、入力テキスト情報1aを参照し、ジャンル情報とスタイル情報のうち少なくともいずれか一方を表す情報を検出し、これをジャンル及びスタイル情報7aとして出力する(ステップST21)。単位表現テーブル検索部40は、第1の形態素列情報2aに対して単位表現テーブル50を参照し、単位表現テーブル50に格納されている記号と一致する表記があるかを第1の形態素列情報2aの各形態素から検索する(ステップST3)。その結果、単位表現テーブル50に一致する記号があった場合は、ルールに一致する形態素の並びを検索し、一致するルールがあるかを判定する(ステップST4、ステップST7、ステップST8)。これらステップST3、ステップST4、ステップST7及びステップST8は、実施の形態1の処理と同様である。
例えば、図8で示した単位表現テーブル例において、ルール512の列のルール「[記号][数詞][単位表現]」と一致する形態素の並びが、図11における形態素列情報例202の形態素「−」「8」「安打」であった場合、ルールの[単位表現]に対応する形態素「安打」の表記から、単位表現513の列の単位表現「安打」の行を参照する。また、受け付けたジャンル及びスタイル情報7aが、例えばスポーツを表すジャンル情報であった場合、設定値514のスポーツ列の「安打」に対応する行に設定された値「0」を取得する。設定値「0」は、単位表現テーブル例において、記号の読み飛ばし設定を行わないことを示しており、形態素列情報例202における記号に対応する形態素「−」の読み情報を「まいなす」のままとする。
また、上記実施の形態2では、ジャンルとスタイルの両方を検出するジャンル及びスタイル検出部7としたが、ジャンルを検出するジャンル検出部とスタイルを検出するスタイル検出部のうち、いずれか一方の検出部を備えるようにしてもよい。この場合は、ジャンル検出部に対応した単位表現テーブルと、スタイル検出部に対応した単位表現テーブルとする。
Claims (5)
- 与えられたテキストを形態素に分割した第1の形態素列情報を生成する形態素解析部と、
記号と、当該記号の使用規則を表すルールと、当該使用規則で示す単位の種類を表す単位表現と、前記記号の読み設定を表す設定値との関係を表す単位表現テーブルと、
前記単位表現テーブルを参照し、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現の設定値に応じた読みとした第2の形態素列情報を出力する単位表現テーブル検索部と、
前記第2の形態素列情報が出力された場合、前記テキストに対応する読み情報を当該第2の形態素列情報の読みとして解析し、解析結果である読み情報を出力する読み解析部とを備えたことを特徴とする読み推定装置。 - 前記単位表現テーブルにおける記号は、記号の表記を示す情報であり、前記ルールは、前記記号の形態素と、品詞を示す形態素と、前記単位表現の形態素の組合せと並びを示す情報であることを特徴とする請求項1記載の読み推定装置。
- 与えられたテキスト内容の分類を表す情報を示すジャンルを検出するジャンル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル毎に設定され、
前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。 - 与えられたテキスト情報の様式を表す情報を示すスタイルを検出するスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はスタイル毎に設定され、
前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたスタイルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。 - 与えられたテキスト内容の分類を表す情報を示すジャンルと、テキスト情報の様式を表す情報を示すスタイルとを検出するジャンル及びスタイル検出部を備えると共に、前記単位表現テーブルの前記設定値はジャンル及びスタイル毎に設定され、
前記単位表現テーブル検索部は、前記第1の形態素列情報で、記号とルールと単位表現とで一致する形態素があった場合は、当該形態素の記号を、前記一致した単位表現でかつ前記検出されたジャンル及びスタイルの設定値に応じた読みとした第2の形態素列情報を出力することを特徴とする請求項1記載の読み推定装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/017259 WO2018203388A1 (ja) | 2017-05-02 | 2017-05-02 | 読み推定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6556411B2 true JP6556411B2 (ja) | 2019-08-07 |
JPWO2018203388A1 JPWO2018203388A1 (ja) | 2019-08-08 |
Family
ID=64016020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019514330A Active JP6556411B2 (ja) | 2017-05-02 | 2017-05-02 | 読み推定装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6556411B2 (ja) |
TW (1) | TW201843603A (ja) |
WO (1) | WO2018203388A1 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06186993A (ja) * | 1992-12-17 | 1994-07-08 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JPH10133853A (ja) * | 1996-10-29 | 1998-05-22 | Nippon Telegr & Teleph Corp <Ntt> | 電子メール書換え方法及び装置 |
JP2002099294A (ja) * | 2000-06-29 | 2002-04-05 | Fujitsu Ltd | 情報処理装置 |
-
2017
- 2017-05-02 JP JP2019514330A patent/JP6556411B2/ja active Active
- 2017-05-02 WO PCT/JP2017/017259 patent/WO2018203388A1/ja active Application Filing
- 2017-07-14 TW TW106123614A patent/TW201843603A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2018203388A1 (ja) | 2018-11-08 |
TW201843603A (zh) | 2018-12-16 |
JPWO2018203388A1 (ja) | 2019-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20050114327A1 (en) | Question-answering system and question-answering processing method | |
US20100070261A1 (en) | Method and apparatus for detecting errors in machine translation using parallel corpus | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
JP6427466B2 (ja) | 同義語ペア獲得装置、方法、及びプログラム | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
US9996508B2 (en) | Input assistance device, input assistance method and storage medium | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP6556411B2 (ja) | 読み推定装置 | |
JP2008204399A (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
KR101634681B1 (ko) | 검사문서 내 인용구문 탐색 방법 및 프로그램 | |
JP7216241B1 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム | |
JP2014126925A (ja) | 情報検索装置および情報検索方法 | |
JP2019061297A (ja) | 情報処理装置、プログラム及び検索方法 | |
Takahasi et al. | Keyboard logs as natural annotations for word segmentation | |
JP2011113099A (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
JP4941495B2 (ja) | ユーザ辞書作成システム、方法、及び、プログラム | |
JP5230664B2 (ja) | 類似語検索サーバ及び方法 | |
JP5289032B2 (ja) | 文書検索装置 | |
JP4318223B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP3939264B2 (ja) | 形態素解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190314 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190314 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190709 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6556411 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |