JP5795985B2 - 形態素解析装置、形態素解析方法および形態素解析プログラム - Google Patents
形態素解析装置、形態素解析方法および形態素解析プログラム Download PDFInfo
- Publication number
- JP5795985B2 JP5795985B2 JP2012080857A JP2012080857A JP5795985B2 JP 5795985 B2 JP5795985 B2 JP 5795985B2 JP 2012080857 A JP2012080857 A JP 2012080857A JP 2012080857 A JP2012080857 A JP 2012080857A JP 5795985 B2 JP5795985 B2 JP 5795985B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- morphemes
- decomposed
- information
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
形態素解析処理は、文程度の単位のテキストを、形態素と呼ばれる言語表現上意味を持つ最小の単位に区切る処理である。一般的には、文の構成要素抽出等で用いられ、形態素は、構文解析といった処理を行なう際の最小処理単位として用いられる。特に、固有名詞に関しては、読みをあまり考慮しない処理に用いる場合、形態素を構成する文字列が同じであれば、それらの意味が全く違う場合であっても、それらの形態素を区別せず同じ形態素として扱うことも多い。これは音声合成のための読み情報生成といった、形態素の読み方に関する情報が必要な処理では問題となる。
図1は、形態素解析装置を示すブロック図である。形態素解析装置100は、テキストデータを形態素の列に分解する装置である。図1に示すように、形態素解析装置100は、形態素辞書110、形態素解析処理部120、話題対象位置推定部140、コスト関数修正部130および連接テーブル蓄積部150を備えている。
図2は、形態素解析装置の動作を示すフローチャートである。まず、入力されたテキストデータを形態素に分解する(ステップS1)。そして、現在の話題対象位置を推定する(ステップS2)。次に、形態素辞書110を参照し、蓄積された形態素およびこれに対応付けられた位置の情報から、分解された形態素に対応する位置の情報を取得する(ステップS3)位置情報を取得できたら、位置情報を用いたコスト関数により、分解の結果得られた形態素列の候補から最適な形態素列を決定する(ステップS4)。
次に、生起コスト修正の例について説明する。コスト関数修正部130は、話題の対象位置がある程度決定でき、形態素に位置情報が付与されている場合、対象位置推定情報との距離が大きくなるほど生起コスト関数の値が大きくなるよう、位置を考慮しない従来のコスト関数の値を修正することが好ましい。例えば、生起コスト関数をCt’(m)=Ct(m)+D(m,p)と定義する。
(1)大阪駅から三田駅までは40分です。
(2)田町駅まで1分です。三田駅までは2分です。
(3)田町三田口店まで3分です。
次に、処理された形態素列を利用した現在位置推定の例を説明する。話題対象位置の推定は、所定の個数の過去の形態素解析結果である形態素列から、位置情報が付加されている形態素の位置情報の重み付き平均に基づき行なうことができる。
(2)田町駅まで1分です。三田駅までは2分です。
次に、形態素列内の情報を利用した現在位置推定の例を説明する。対象位置推定は、探索処理時点においてコストが最小な形態素列の候補(仮説)から最近の所定の個数の、位置情報が付加されている形態素の位置情報の重み付き平均に基づき行なうことができる。重み係数は、より新しい処理結果であるほど大きく設定する。
(1)大阪駅から三田駅までは40分です。
次に、連接コスト修正の例を説明する。話題の対象位置が急激に変化することは考えにくいことから、連接コスト関数の入力パラメータである形態素について、その位置情報が定義されているとき、形態素間の距離が大きくなるほど連接コスト関数の値が大きくなるよう、コスト関数修正部130でコスト関数を修正してもよい。例えば、連接コスト関数をCc’(m(i−k+1),…,m(i))=Cc(m(i−k+1),…,m(i))+Dc(m(i−k+1),…,m(i))と定義する。
(3)田町三田口店まで3分です。
110 形態素辞書(形態素情報蓄積部)
120 形態素解析処理部
130 コスト関数修正部
140 話題対象位置推定部
150 連接テーブル蓄積部
Claims (5)
- テキストデータを形態素の列に分解する形態素解析装置であって、
形態素およびこれに対応付けられた位置の情報を蓄積する形態素辞書と、
入力されたテキストデータを形態素に分解し、前記形態素辞書を参照して前記分解された形態素に対応する位置の情報を取得し、位置情報を用いたコスト関数により、前記分解の結果得られた形態素列の候補から最適な形態素列を決定する形態素解析処理部と、
前記入力されたテキストデータに対して話題対象位置を推定する話題対象位置推定部と、を備え、
前記形態素解析処理部は、2つの位置情報から決まる距離が大きくなるほど、形態素の生成可能性を低くする項を含むコスト関数を用いて、前記分解された形態素に対応する位置と前記話題対象位置との距離から前記分解された形態素の生成可能性を評価することを特徴とする形態素解析装置。 - 前記話題対象位置推定部は、現在の解析対象である形態素に至るまでの形態素列の候補のうちコストが最小な候補において、前記現在の解析対象である形態素から直近複数個の形態素から得られた位置情報に基づいて話題対象位置を推定することを特徴とする請求項1記載の形態素解析装置。
- 前記形態素解析処理部は、2つの位置情報から決まる距離が大きくなるほど、形態素の連接可能性を低くする項を含む関数を用いて前記分解された形態素間の連接可能性を評価することを特徴とする請求項1記載の形態素解析装置。
- 形態素解析処理部および話題対象位置推定部を有する形態素解析装置において、コンピュータが実行する一連のステップによりテキストデータを形態素の列に分解する形態素解析方法であって、
前記形態素解析処理部が、入力されたテキストデータを形態素に分解するステップと、
前記形態素解析処理部が、蓄積された形態素およびこれに対応付けられた位置の情報から、前記分解された形態素に対応する位置の情報を取得するステップと、
前記形態素解析処理部が、位置情報を用いたコスト関数により、前記分解の結果得られた形態素列の候補から最適な形態素列を決定するステップと、
前記話題対象位置推定部が、前記入力されたテキストデータに対して話題対象位置を推定するステップと、
前記形態素解析処理部が、2つの位置情報から決まる距離が大きくなるほど、形態素の生成可能性を低くする項を含むコスト関数を用いて、前記分解された形態素に対応する位置と前記話題対象位置との距離から前記分解された形態素の生成可能性を評価するステップと、を含むことを特徴とする形態素解析方法。 - 形態素解析処理部および話題対象位置推定部を有する形態素解析装置において、コンピュータに実行させてテキストデータを形態素の列に分解する形態素解析プログラムであって、
前記形態素解析処理部が、入力されたテキストデータを形態素に分解する処理と、
前記形態素解析処理部が、蓄積された形態素およびこれに対応付けられた位置の情報から、前記分解された形態素に対応する位置の情報を取得する処理と、
前記形態素解析処理部が、位置情報を用いたコスト関数により、前記分解の結果得られた形態素列の候補から最適な形態素列を決定する処理と、
前記話題対象位置推定部が、前記入力されたテキストデータに対して話題対象位置を推定する処理と、
前記形態素解析処理部が、2つの位置情報から決まる距離が大きくなるほど、形態素の生成可能性を低くする項を含むコスト関数を用いて、前記分解された形態素に対応する位置と前記話題対象位置との距離から前記分解された形態素の生成可能性を評価する処理と、を含む一連の処理をコンピュータに実行させることを特徴とする形態素解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012080857A JP5795985B2 (ja) | 2012-03-30 | 2012-03-30 | 形態素解析装置、形態素解析方法および形態素解析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012080857A JP5795985B2 (ja) | 2012-03-30 | 2012-03-30 | 形態素解析装置、形態素解析方法および形態素解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013210856A JP2013210856A (ja) | 2013-10-10 |
JP5795985B2 true JP5795985B2 (ja) | 2015-10-14 |
Family
ID=49528622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012080857A Active JP5795985B2 (ja) | 2012-03-30 | 2012-03-30 | 形態素解析装置、形態素解析方法および形態素解析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5795985B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030568B (zh) | 2014-04-29 | 2018-11-06 | 乐天株式会社 | 自然语言处理系统、自然语言处理方法、以及自然语言处理程序 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272789A (ja) * | 1995-03-30 | 1996-10-18 | Mitsubishi Electric Corp | 言語情報変換装置 |
JP3573907B2 (ja) * | 1997-03-10 | 2004-10-06 | 株式会社リコー | 音声合成装置 |
-
2012
- 2012-03-30 JP JP2012080857A patent/JP5795985B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013210856A (ja) | 2013-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
JP5362095B2 (ja) | インプットメソッドエディタ | |
US9361063B2 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
US8126714B2 (en) | Voice search device | |
US9594744B2 (en) | Speech transcription including written text | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
US11423237B2 (en) | Sequence transduction neural networks | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2008234427A (ja) | ユーザ間の対話を支援する装置、方法およびプログラム | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
JP2010009446A (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP2014002257A (ja) | 言語モデル生成装置、その方法及びプログラム | |
JP5795985B2 (ja) | 形態素解析装置、形態素解析方法および形態素解析プログラム | |
US20200380207A1 (en) | Morpheme analysis learning device, morpheme analysis device, method, and program | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP5976255B2 (ja) | 情報提供装置および情報提供方法 | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
KR101982490B1 (ko) | 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치 | |
JP2008116650A (ja) | 読み情報生成装置、読み情報生成方法、読み情報生成プログラムおよび音声合成装置 | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
JP3961858B2 (ja) | 翻字装置及びそのプログラム | |
JP2007171275A (ja) | 言語処理装置及び現後処理方法 | |
KR101767625B1 (ko) | 동적 계획법 기반 일본어 문장 최소 분할 탐색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5795985 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |