JP2011164678A - 機能表現補完装置、方法及びプログラム - Google Patents
機能表現補完装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2011164678A JP2011164678A JP2010023183A JP2010023183A JP2011164678A JP 2011164678 A JP2011164678 A JP 2011164678A JP 2010023183 A JP2010023183 A JP 2010023183A JP 2010023183 A JP2010023183 A JP 2010023183A JP 2011164678 A JP2011164678 A JP 2011164678A
- Authority
- JP
- Japan
- Prior art keywords
- predicate
- morpheme
- conjunction
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】述部の機能表現に意味ラベルを付与し、さらにそれらをMod,Foc,Tという3種類に分類する。時制判定部71が、補完対象となる中間述部の機能表現の意味と種類及び中間述部に後続する接続詞から、その中間述部に対し何らかの機能表現を補完する必要があるか判断する。補完処理部72は、補完すべき機能表現が必要だと判断された中間述部に対して、その中間述部とその直後にある補完もと述部の機能表現の意味ラベルを比較する。その中間述部の機能表現の種類(Mod,Foc,T)から、その中間述部の「欠如」している機能表現を判断する。直後の述部の機能表現から、その中間述部が欠如しているもののみを補完する。
【選択図】図1
Description
(1)の「行きたかった」は、述部として一つの意味をなす。つまり、「内容語+機能語列」の組み合わせで抽出・集計しなくては、異なる意味を表してしまう。
≠「行った」(行っ〈内容語〉+た〈機能語〉) (3)
≠「行きたかった」(行き〈内容語〉+たかっ〈機能語〉+た〈機能語〉) (4)
(2)、(3)及び(4)はまったく異なる意味を表している。(2)の「行く」はこれからどこかに行くという未来への動作を表している。(3)の「行った」はすでにどこかに行ったという過去の動作を表している。(4)の「行きたかった」はどこかに行きたかったが、結局行けなかったということが含意されている。これらの意味の違いは、述部の「機能語」によってのみ認定することができる。つまり、(3)は過去を表す機能語「た」が付いていて、(4)は願望を表す機能語「たい」と過去の機能語「た」の両方が付いている事で、(2)、(3)及び(4)の意味が区別されている。このように、機能語は述部の意味を区別するのに必須の要素であり、欠くことができない。
(5)の場合、文中にある「行って」は、「行っ(行く)」という述部に接続助詞の「て」がついたものである。しかし、(5)を「行く」と抽出しては異なる意味に解釈されてしまう。つまり、(5)の中間述部は正しくは、「行きたかった」ということを表している。文末の述部である「のんびりしたかった」から「たかっ」と「た」という機能語列を正しく補わなくては、意図している事とは異なる意味で述部が抽出されてしまう。結果、テキストマイニングの精度を下げる。このように、述部を抽出・集計するようなテキストマイニングの精度を上げるためには、中間述部に「正しい機能語列」を補わなくてはいけない。
→非特許文献1の方法:(本当はハワイに)行った。
→非特許文献1の方法:(今日ではバナナはとても)安かった。
「今日ではバナナはとても安いが、昔はとても高かった。」という文に対するこの発明による述部の補完の例を説明する。
「眠たいみたいで、早く帰りたがっていた。」という文に対するこの発明による述部の補完の例を説明する。
2 等位接続詞辞書記憶部
3 入力部
4 形態素解析部
5 述部抽出部
6 意味ラベル付与部
7 機能表現補完部
71 時制判定部
72 補完処理部
8 接続詞削除部
9 活用生成部
Claims (3)
- 入力された文を形態素解析して複数の形態素に分割し、各形態素の品詞及び活用している場合にはその活用形を決定する形態素解析部と、
意味ラベル及びタイプ情報が予め定められた機能表現を記憶する機能表現辞書記憶部と、
等位接続詞を記憶する等位接続詞辞書記憶部と、
助詞、助動詞及び非自立性の動詞、形容詞並びに形式名詞を機能語とし、連続する少なくとも1つの機能表現及び機能語を機能語列とし、動詞、形容詞、形容動詞、副詞及び助動詞に後続する名詞を内容語とし、内容語及びその内容語に後続する機能語列又は後続する機能語列がない内容語を述部とし、等位接続詞を含む述部及び連用形で終わる述部を中間述部とし、文末の述部を文末述部として、各形態素が、上記機能表現辞書記憶部に記憶された機能表現、機能語又は内容語であるか判定し、その判定結果に基づいて述部を抽出し、上記等位接続詞辞書記憶部に記憶された等位接続詞を含む述部及び連用形で終わる述部を中間述部とし、文末の述部を文末述部とする述部抽出部と、
上記中間述部及び上記文末述部を構成する各形態素が、機能表現辞書記憶部に記憶された機能表現である場合には上記機能表現辞書記憶部を参照してその各形態素にその機能表現の意味ラベル及びタイプ情報を付与する意味ラベル付与部と、
上記中間述部を構成する各形態素の中に、完了の意味ラベルを有する形態素と過去形と接続できる接続詞との少なくとも一方が含まれているかを判定する時制判定部と、
完了の意味ラベルを有する形態素と過去形と接続できる接続詞との少なくとも一方が含まれていると判定されなかった場合に、上記中間述部から等位接続詞を削除し、上記文末述部を構成する形態素が有するが上記中間述部を構成する形態素が有しない意味ラベルのタイプ情報が、上記文末述部を構成する形態素が有するが上記中間述部を構成する形態素が有しないタイプ情報である場合に、上記中間述部にその意味ラベルを有する形態素を補完する補完処理部と、
上記中間述部及び上記補完すべきと認定された形態素を尤もらしく活用させる活用生成部と、
完了の意味ラベルを有する形態素と過去形と接続できる接続詞との少なくとも一方が含まれていると判定された場合に、上記中間述部から等位接続詞を削除する接続詞削除部と、
を含む機能表現補完装置。 - 形態素解析部が、入力された文を形態素解析して複数の形態素に分割し、各形態素の品詞及び活用している場合にはその活用形を決定する形態素解析ステップと、
述部抽出部が、助詞、助動詞及び非自立性の動詞、形容詞並びに形式名詞を機能語とし、連続する少なくとも1つの機能表現及び機能語を機能語列とし、動詞、形容詞、形容動詞、副詞及び助動詞に後続する名詞を内容語とし、内容語及びその内容語に後続する機能語列又は後続する機能語列がない内容語を述部とし、等位接続詞を含む述部及び連用形で終わる述部を中間述部とし、文末の述部を文末述部として、各形態素が、意味ラベル及びタイプ情報が予め定められた機能表現を記憶する機能表現辞書記憶部に記憶された機能表現、機能語又は内容語であるか判定し、その判定結果に基づいて述部を抽出し、等位接続詞を記憶する等位接続詞辞書記憶部に記憶された等位接続詞を含む述部及び連用形で終わる述部を中間述部とし、文末の述部を文末述部とする述部抽出ステップと、
意味ラベル付与部が、上記中間述部及び上記文末述部を構成する各形態素が、機能表現辞書記憶部に記憶された機能表現である場合には上記機能表現辞書記憶部を参照してその各形態素にその機能表現の意味ラベル及びタイプ情報を付与する意味ラベル付与ステップと、
時制判定部が、上記中間述部を構成する各形態素の中に、完了の意味ラベルを有する形態素と過去形と接続できる接続詞との少なくとも一方が含まれているかを判定する時制判定ステップと、
補完処理部が、完了の意味ラベルを有する形態素と過去形と接続できる接続詞との少なくとも一方が含まれていると判定されなかった場合に、上記中間述部から等位接続詞を削除し、上記文末述部を構成する形態素が有するが上記中間述部を構成する形態素が有しない意味ラベルのタイプ情報が、上記文末述部を構成する形態素が有するが上記中間述部を構成する形態素が有しないタイプ情報である場合に、上記中間述部にその意味ラベルを有する形態素を補完する補完処理ステップと、
活用生成部が、上記中間述部及び上記補完すべきと認定された形態素を尤もらしく活用させる活用生成ステップと、
接続詞削除部が、完了の意味ラベルを有する形態素と過去形と接続できる接続詞との少なくとも一方が含まれていると判定された場合に、上記中間述部から等位接続詞を削除する接続詞削除ステップと、
を含む機能表現補完方法。 - 請求項1に記載された機能表現補完装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010023183A JP5366849B2 (ja) | 2010-02-04 | 2010-02-04 | 機能表現補完装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010023183A JP5366849B2 (ja) | 2010-02-04 | 2010-02-04 | 機能表現補完装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011164678A true JP2011164678A (ja) | 2011-08-25 |
JP5366849B2 JP5366849B2 (ja) | 2013-12-11 |
Family
ID=44595335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010023183A Active JP5366849B2 (ja) | 2010-02-04 | 2010-02-04 | 機能表現補完装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5366849B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013171328A (ja) * | 2012-02-17 | 2013-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 偏り述部抽出装置、方法、及びプログラム |
JP2015064671A (ja) * | 2013-09-24 | 2015-04-09 | 株式会社Nttドコモ | 文正規化システム、文正規化方法及び文正規化プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03102464A (ja) * | 1989-09-14 | 1991-04-26 | Fujitsu Ltd | 日本語文の長文分割処理方式 |
JPH04281557A (ja) * | 1991-03-11 | 1992-10-07 | Agency Of Ind Science & Technol | 文分割方式 |
-
2010
- 2010-02-04 JP JP2010023183A patent/JP5366849B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03102464A (ja) * | 1989-09-14 | 1991-04-26 | Fujitsu Ltd | 日本語文の長文分割処理方式 |
JPH04281557A (ja) * | 1991-03-11 | 1992-10-07 | Agency Of Ind Science & Technol | 文分割方式 |
Non-Patent Citations (6)
Title |
---|
CSNG200100814003; 江原 暉将,福島 孝博,和田 裕二,白井 克彦: '聴覚障害者向け字幕放送のためのニュース文自動短文分割' 電子情報通信学会技術研究報告 Vol.100 No.200 第100巻 第200号【ISSN】0913-5685, 20000711, pp.17-22, 社団法人電子情報通信学会 * |
CSNG200900092060; 泉 朋子,今村 賢治,菊井 玄一郎,藤田 篤,佐藤 理史: '正規化を指向した機能動詞表現の述部言い換え' 言語処理学会第15回年次大会発表論文集 , 20090302, pp.264-267, 言語処理学会 * |
CSNG200900334093; 灘本 明代,林 正樹,道家 守,浜口 斉周,田中 克己: '係り受け構造及びシソーラスによる対話文生成と簡易演出技法を用いたWebコンテンツの受動的視聴' DEWS2005論文集 [online] 【ISSN】1347-4413, 20050502, (社)電子情報通信学会データ工学研究専門委員会 * |
JPN6013029562; 江原 暉将,福島 孝博,和田 裕二,白井 克彦: '聴覚障害者向け字幕放送のためのニュース文自動短文分割' 電子情報通信学会技術研究報告 Vol.100 No.200 第100巻 第200号【ISSN】0913-5685, 20000711, pp.17-22, 社団法人電子情報通信学会 * |
JPN6013029564; 灘本 明代,林 正樹,道家 守,浜口 斉周,田中 克己: '係り受け構造及びシソーラスによる対話文生成と簡易演出技法を用いたWebコンテンツの受動的視聴' DEWS2005論文集 [online] 【ISSN】1347-4413, 20050502, (社)電子情報通信学会データ工学研究専門委員会 * |
JPN6013029566; 泉 朋子,今村 賢治,菊井 玄一郎,藤田 篤,佐藤 理史: '正規化を指向した機能動詞表現の述部言い換え' 言語処理学会第15回年次大会発表論文集 , 20090302, pp.264-267, 言語処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013171328A (ja) * | 2012-02-17 | 2013-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 偏り述部抽出装置、方法、及びプログラム |
JP2015064671A (ja) * | 2013-09-24 | 2015-04-09 | 株式会社Nttドコモ | 文正規化システム、文正規化方法及び文正規化プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5366849B2 (ja) | 2013-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9189482B2 (en) | Similar document search | |
US8543374B2 (en) | Translation system combining hierarchical and phrase-based models | |
US7925498B1 (en) | Identifying a synonym with N-gram agreement for a query phrase | |
US20130054612A1 (en) | Universal Document Similarity | |
US7574348B2 (en) | Processing collocation mistakes in documents | |
US9846692B2 (en) | Method and system for machine-based extraction and interpretation of textual information | |
US9235573B2 (en) | Universal difference measure | |
EP3489837A1 (en) | Method and system for key phrase extraction and generation from text | |
JP4769031B2 (ja) | 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20050102130A1 (en) | System and method for machine learning a confidence metric for machine translation | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Chen et al. | Automated extraction of tree-adjoining grammars from treebanks | |
JP5366849B2 (ja) | 機能表現補完装置、方法及びプログラム | |
JP5426292B2 (ja) | 意見分類装置およびプログラム | |
Ma et al. | Design of CKIP Chinese word segmentation system | |
CN113642739B (zh) | 敏感词屏蔽质量评估模型的训练方法及相应的评估方法 | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
Delmonte | Venses@ AcCompl-it: Computing complexity vs acceptability with a constituent trigram model and semantics | |
Scholivet et al. | Sequence models and lexical resources for MWE identification in French | |
Zhang et al. | From coarse to fine: Enhancing multi-document summarization with multi-granularity relationship-based extractor | |
JP2009146447A (ja) | テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム | |
JP3908919B2 (ja) | 形態素解析システムと形態素解析方法 | |
EP4273738A1 (en) | Semantic representation generation method, semantic representation generation device, and semantic representation generation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130910 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5366849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |