JP3908261B2 - 修辞構造解析システム - Google Patents
修辞構造解析システム Download PDFInfo
- Publication number
- JP3908261B2 JP3908261B2 JP2006146038A JP2006146038A JP3908261B2 JP 3908261 B2 JP3908261 B2 JP 3908261B2 JP 2006146038 A JP2006146038 A JP 2006146038A JP 2006146038 A JP2006146038 A JP 2006146038A JP 3908261 B2 JP3908261 B2 JP 3908261B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- token
- unit character
- morpheme
- jepson
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(1)順次列挙形式
「…し、…し、…した、…」のように、処理を順序的に記述する形式。
(2)構成要素列挙形式
「…と、…と、…とからなる、…」のように、構成要素を列挙する形で記述する形式。
(3)ジェプソン(Jepson)的形式
「…において、…を特徴とする、…」、「…であって、…を特徴とする、…」のように、最初に、公知部分(既に知られている内容)または前提条件を述べた上で、新規部分(この発明の特徴となる部分)または本論部分を記述する形式。
(1)形態素解析手順
解析対象の特許請求項を形態素解析して形態素単位文字列に分割する。
(2)字句解析手順
前記形態素解析手順の出力を入力し、文脈を判定しながら所与の手がかり句集合の一要素に相当する1つ以上の形態素単位文字列を検索し、検出された場合は当該手がかり句に対応するトークンと前記1つ以上の形態素単位文字列を連結した文字列とを出力し、それ以外の部分については当該形態素に対応するトークンと当該形態素単位文字列とを出力する。
(3)修辞構造解析手順
前記字句解析手順から出力されたトークンと文字列とを入力し、文脈自由文法で記述された文法からパーサジェネレータにより生成されたパーサにより1つ以上の前記形態素単位文字列から構成される断片の集合にまとめ、前記断片集合の要素間に関係付けを行うことで修辞構造木を組み上げる。
(1)形態素解析手段
解析対象の特許請求項を形態素解析して形態素単位文字列に分割する。
前記形態素解析手段の出力を入力し、文脈を判定しながら所与の手がかり句集合の一要素に相当する1つ以上の形態素単位文字列を検索し、検出された場合は当該手がかり句に対応するトークンと前記1つ以上の形態素単位文字列を連結した文字列とを出力し、それ以外の部分については当該形態素に対応するトークンと当該形態素単位文字列とを出力する。
(3)修辞構造解析手段
前記字句解析手段から出力されたトークンと文字列とを入力し、文脈自由文法で記述された文法からパーサジェネレータにより生成されたパーサにより1つ以上の前記形態素単位文字列から構成される断片の集合にまとめ、前記断片集合の要素間に関係付けを行うことで修辞構造木を組み上げる。
・既存の特許明細書から抽出した複数の特許請求項で明示的に指定されている断片境界周辺の記述形式を収集してパターン化することで得られる手がかり句と、
・既存の特許明細書から抽出した複数の特許請求項で高頻度で使用される記述形式をパターン化することで得られる手がかり句と
を含むことを特徴とする。
第一の発明、第二の発明、第三の発明の実施例について説明する。
(1)形態素解析
(2)字句解析
JEPSON_CUE
図4におけるJEPSON_CUE に該当する手がかり句を認識した場合に1回だけ出力する。改行コードを含む特許請求項の場合、改行コードが後続する場合のみ、手がかり句を認識させる。該当するものが個以上存在する場合、後方に出現するものに対して出力する。
FEATURE_CUE
図4におけるFEATURE_CUE に該当する手がかり句を認識した場合に出力する。
COMPOSE_CUE
文脈に依存して、図4におけるCOMPOSE_CUEに該当する手がかり句を認識した場合に出力する。
NOUN
文脈に依存して認識した「(名詞|記号)と(、|,)」の名詞・記号の部分、または記述末尾に連続出現する名詞・記号・接続詞・動詞体言接続形・接頭詞について、出力する。
POSTP_TO
文脈に依存して認識した「(名詞|記号)と(、|,)」について、「と」の部分に対して出力する。
POSTP_NO
記述末尾の名詞・記号、またはJEPSON_CUE、またはFEATURE_CUEの直前の名詞・記号について、その前方に隣接して助詞「の」「と」「における」のいずれかが存在し、その直前に名詞または記号が隣接する場合、助詞「の」「と」「における」に対して出力する。
VERB_RENYOU
文脈に依存して認識した「(動詞連用形|助動詞連用形)(、|,)」について、「(動詞連用形|助動詞連用形)」の部分に対して出力する。
VERB_KIHON
文脈に依存して認識した「(動詞基本形|助動詞基本形)(、|,)」について、「(動詞基本形|助動詞基本形)」の部分に対して出力する。
PUNCT_TOUTEN
文脈に依存して認識した「(名詞|記号)と(、|,)」または「(動詞連用形|助動詞連用形)(、|,)」について,「(、|,)」の部分に対して出力する。
WORD
上記の処理対象とならなかった形態素に対して出力する。
(1)記述末尾から前方向に探索し、NOUN、POSTP_NOトークンに変換する。
(2)JEPSON_CUE、FEATURE_CUEの直前から前方向に探索し、NOUN、POSTP_NOトークンに変換する。
(3)非ジェプソン的形式の場合は全体に対して1回、ジェプソン的形式の場合は公知部分・前提条件と、新規部分・本論部分のそれぞれに対して、前方向に探索し、以下のいずれのパターンが後に出現するかを調べ、見つかったものをトークン化する。
(a)(動詞基本形|助動詞基本形)(、|,)?NOUN
(b)COMPOSE_CUE
(4)(a)の場合、さらに前方向に探索し、他の手がかり句トークンが存在するまでの範囲において、VERB_RENYOU、PUNCT_TOUTENトークンに変換する。
(5)(b)の場合、COMPOSE_CUEの直前に、「と(、|,)?」が存在するときは、さらに前方向に探索し、他の手がかり句トークンが存在するまでの範囲において、NOUN、POSTP_TO、PUNCT_TOUTENトークンに変換する。そうでない場合、他の手がかり句トークンが存在するまでの範囲において、VERB_RENYOU、PUNCT_TOUTENトークンに変換する。
(6)上記の処理によって生成されたNOUNトークンに対して、その前方向を探索し、NOUN、POSTP_NOトークンに変換する。
文脈自由文法による記述からパーサを生成するパーサジェネレータであるBison(参考文献:Charles Donnelly, Richard Stallman: Bison:The YACC−compatible Parser Generator,Version 1.25,1995)互換のPerl用ツールであるParse::Yapp(入手先:http://www.cpan.org/modules/by−authors/id/F/FD/FDESAR/Parse−Yapp−1.05.tar.gz, (c) 1998−2001 Francois Desarmenien)利用してパーサを生成し、このパーサを用いて修辞構造解析を行う。
(a)宣言部分
(b)文脈自由文法のルールと対応するアクションの集合
(c)補助的なサブルーチン定義
(b)の文脈自由文法記述において、アルファベット大文字で記述されたものはトークン(終端記号)であり、アルファベット小文字で記述されたものは非終端記号である。アクションは{}内に記述されている。アクション記述中で、$_[1]、$_[2]はそれぞれ、対応するルール右側の1番目、2番目の要素に対応する値を意味する。(a)、(b)、(c)において、プログラムの記述は、Perlの記法に従っている。
第四の発明の実施例について説明する。
(名詞|記号)と(、|,)
(動詞連用形|助動詞連用形)(、|,)
(名詞|記号)(において|に於いて|に於て)(、|,)
(名詞|記号)であって(、|,)
(<名詞>|<複合名詞>|<未知語>)$
検出した「名詞まとまり」の直前の15形態素を抽出して分析する。これにより、以下のような手がかり句を収集することができる。
を特徴と(した|する)(、|,)?
を備えた(、|,)?
を設けた(、|,)?
を含(む|んだ)(、|,)?
第五の発明の実施例について説明する。
第六の発明の実施例について説明する。
図11の特許請求項を入力して修辞構造解析を行い、修辞構造解析結果を視覚的に表示したものを図12に示す。タグ付きテキストとして出力したものを図13に示す。
102 形態素解析手順
103 形態素解析結果
104 手がかり句収集方法
105 手がかり句集合
106 字句解析手順
107 字句解析結果(トークンと文字列のペア集合)
108 修辞構造解析手順
109 視覚表示
110 修辞構造解析結果(タグ付きテキスト)
201 解析対象の特許請求項
202 形態素解析手段
203 形態素解析結果
205 手がかり句集合
206 字句解析手段
207 字句解析結果(トークンと文字列のペア集合)
208 修辞構造解析手段
209 視覚表示
210 修辞構造解析結果(タグ付きテキスト)
Claims (1)
- ファイルに、
ジェプソン的形式の請求項であることを示す1以上の文字列である手がかり句の情報とジェプソン的形式の請求項に対応するトークンの情報の対を1以上有する手がかり句集合を格納しており、
ファイルに、
形態素単位文字列の情報を断片集合にまとめ、当該断片集合を構成する要素間に関係付けを行うための情報であり、トークンの情報または非終端記号の情報と、1以上のトークンの情報の列または/および1以上の非終端記号の情報の列と、断片集合にまとめ、当該断片集合を構成する要素間に関係付けを行うためのアクションの情報とのペアの情報を、複数格納しており、
解析対象の特許請求項の情報に対して、形態素解析して形態素単位文字列の情報に分割し、当該分割した形態素単位文字列を1以上得る形態素解析手段と、
前記手がかり句集合をファイルから読み出し、
当該読み出した手がかり句集合が有する手がかり句の情報であり、ジェプソン的形式の請求項であることを示す手がかり句の情報を、前記1以上の形態素単位文字列の情報に対して探索し、かつ、改行コードを探索し、改行コードの存在を検知した場合には改行コードが後続する場合のみジェプソン的形式の請求項であることを示す手がかり句の情報に一致する1以上の形態素単位文字列の情報に対して、当該手がかり句の情報と対になっているトークンの情報と前記一致する1以上の形態素単位文字列の情報をペアにして取得し、
前記ジェプソン的形式の請求項であることを示す手がかり句の情報に一致する1以上の形態素単位文字列の情報が存在するジェプソン的形式の請求項である場合には、当該請求項の前提部分と本論部分に分け、それぞれの部分に対して、末尾から前方向に探索し、前記読み出したいずれかの手がかり句の情報に一致する1以上の形態素単位文字列の情報には、当該手がかり句の情報と対になっているトークンの情報を割り当て、
ジェプソン的形式の請求項でない場合には、全体に対して末尾から前方向に探索し、前記読み出したいずれかの手がかり句の情報に一致する1以上の形態素単位文字列の情報には、当該手がかり句の情報と対になっているトークンの情報を割り当て、
かつ、ジェプソン的形式の請求項である場合でもジェプソン的形式の請求項でない場合でも、いずれの手がかり句の情報にも一致しない形態素単位文字列の情報に対して、当該形態素単位文字列に対応するトークンの情報と前記一致しない形態素単位文字列の情報をペアにして取得する字句解析手段と、
形態素単位文字列の情報を断片集合にまとめ、当該断片集合を構成する要素間に関係付けを行うための情報であり、トークンの情報または非終端記号の情報と、1以上のトークンの情報の列または/および1以上の非終端記号の情報の列と、断片集合にまとめ、当該断片集合を構成する要素間に関係付けを行うためのアクションの情報とのペアの情報を、ファイルから読み出し、
前記字句解析手段の処理結果の情報が有する1以上のトークンの情報列が、読み出した前記1以上のトークンの情報の列と一致する場合に、当該読み出した前記1以上のトークンの情報の列に対応するトークンの情報または非終端記号の情報に、前記字句解析手段の処理結果が有する1以上のトークンの情報列を置き換え、かつ、当該読み出した前記1以上のトークンの情報の列に対応するアクションの情報を用いて、形態素単位文字列の情報を断片集合にまとめ上げる処理および当該断片集合を構成する要素間に関係付け行うための情報を付与する処理を、トークンの情報がすべて非終端記号の情報に置き換わるまで繰り返し行い、当該まとめ上げる処理および関係付け行うための情報を付与する処理により得られた情報であり、1以上の断片集合の情報と、前記1以上の断片集合の情報を構成する1以上の要素の情報の間の修辞関係を示す情報を有する修辞構造木の情報を取得する修辞構造解析手段と、
前記修辞構造解析手段が取得した修辞構造木の情報を、木構造として視覚的にディスプレイに表示する手段を具備する特許請求項の修辞構造解析システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006146038A JP3908261B2 (ja) | 2006-05-26 | 2006-05-26 | 修辞構造解析システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006146038A JP3908261B2 (ja) | 2006-05-26 | 2006-05-26 | 修辞構造解析システム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002326334A Division JP4289871B2 (ja) | 2002-11-11 | 2002-11-11 | 特許請求項の修辞構造解析方法、特許請求項の修辞構造解析プログラム、及び特許請求項の修辞構造解析システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006260597A JP2006260597A (ja) | 2006-09-28 |
JP3908261B2 true JP3908261B2 (ja) | 2007-04-25 |
Family
ID=37099675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006146038A Expired - Fee Related JP3908261B2 (ja) | 2006-05-26 | 2006-05-26 | 修辞構造解析システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3908261B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101069278B1 (ko) * | 2009-08-21 | 2011-10-04 | (주)윕스 | 청구항 시각화 장치 및 방법 |
US10853574B2 (en) * | 2017-09-28 | 2020-12-01 | Oracle International Corporation | Navigating electronic documents using domain discourse trees |
US11809825B2 (en) | 2017-09-28 | 2023-11-07 | Oracle International Corporation | Management of a focused information sharing dialogue based on discourse trees |
CN112106056A (zh) | 2018-05-09 | 2020-12-18 | 甲骨文国际公司 | 构造虚构的话语树来提高回答聚敛性问题的能力 |
US11580298B2 (en) | 2019-11-14 | 2023-02-14 | Oracle International Corporation | Detecting hypocrisy in text |
JPWO2021125252A1 (ja) * | 2019-12-20 | 2021-06-24 | ||
CN112966474B (zh) * | 2021-02-20 | 2024-05-24 | 中央民族大学 | 一种基于多级注意力机制的藏文机器阅读理解方法 |
-
2006
- 2006-05-26 JP JP2006146038A patent/JP3908261B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006260597A (ja) | 2006-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3908261B2 (ja) | 修辞構造解析システム | |
JP2007334894A (ja) | ドキュメントの注釈をソースドキュメントのコンテキスト内で視覚化すること | |
KR20160138077A (ko) | 기계 번역 시스템 및 방법 | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
Khan et al. | A light weight stemmer for Urdu language: a scarce resourced language | |
Hardie | Corpus linguistics | |
Sornlertlamvanich et al. | Thai Part-of-Speech Tagged Corpus: ORCHID | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
Tsarfaty | Integrated morphological and syntactic disambiguation for modern hebrew | |
Sagot et al. | A morphological lexicon for the Persian language | |
Jacksi et al. | The Kurdish Language corpus: state of the art | |
JP4289871B2 (ja) | 特許請求項の修辞構造解析方法、特許請求項の修辞構造解析プログラム、及び特許請求項の修辞構造解析システム | |
Vasiu et al. | Enhancing tokenization by embedding romanian language specific morphology | |
Puscasu | A multilingual method for clause splitting | |
Yeshambel et al. | Evaluation of corpora, resources and tools for Amharic information retrieval | |
Kumarasinghe et al. | Sinmorphy: A morphological analyzer for the sinhala language | |
Sawalha et al. | Linguistically informed and corpus informed morphological analysis of Arabic | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
Dione | Finite-state tokenization for a deep Wolof LFG grammar | |
Robertson | Show, Don't Tell: Visualising Finnish Word Formation in a Browser-Based Reading Assistant | |
Adewole et al. | Token Validation in Automatic Corpus Gathering for Yoruba Language | |
Lehal | A two stage word segmentation system for handling space insertion problem in Urdu script | |
Cheng et al. | MAG-Tagalog: A rule-based Tagalog morphological analyzer and generator | |
Bonus | The Tagalog Stemming Algorithms (TagSA) | |
Dash et al. | Lemmatization of Inflected Nouns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061011 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3908261 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100126 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100126 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130126 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130126 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130126 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130126 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160126 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |