JP2011221728A - 文書分析装置及び文書分析方法 - Google Patents

文書分析装置及び文書分析方法 Download PDF

Info

Publication number
JP2011221728A
JP2011221728A JP2010089131A JP2010089131A JP2011221728A JP 2011221728 A JP2011221728 A JP 2011221728A JP 2010089131 A JP2010089131 A JP 2010089131A JP 2010089131 A JP2010089131 A JP 2010089131A JP 2011221728 A JP2011221728 A JP 2011221728A
Authority
JP
Japan
Prior art keywords
effect
word
element determination
control unit
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010089131A
Other languages
English (en)
Inventor
Yusuke Sato
祐介 佐藤
Makoto Iwayama
真 岩山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010089131A priority Critical patent/JP2011221728A/ja
Publication of JP2011221728A publication Critical patent/JP2011221728A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文末表現のパターンマッチでは抽出できない表現であっても、特許文献から効果表現を高精度に抽出する。
【解決手段】 プロセッサと、前記プロセッサに接続されるメモリと、を備え、入力された特許文献の文の中から効果表現を抽出する文書分析装置は、効果要素判定制御部と、尺度要素判定制御部と、対象要素判定制御部と、効果表現特定部と、構成要素判定結果記憶部と、を備え、前記特許文献中の文の中から、前記効果要素判定制御部は、効果要素である単語を特定し、前記尺度要素判定制御部は、前記効果要素の判定結果を用いて、尺度要素である単語を特定し、前記対象要素判定制御部は、前記効果要素と、前記尺度要素の判定結果と、を用いて、対象要素である単語を特定し、前記効果表現特定部は、前記与えられた特許文献の文の中から効果表現を特定する。
【選択図】 図1

Description

本発明は、特許文献から発明の効果を表す表現(効果表現)を高精度に抽出する方法に関する。
特許文献を分析する際には、発明の効果を適切に理解する必要がある。発明の効果とは、文字通りその発明により得られる効果に関する事項が記述されており、例えば、「ターンオフ損失とオン電圧を最小化する」や「重金属イオンの回収効率を向上する」といった例がある。特許文献は、意味的にまとまった段落に対して墨付きタグで囲まれた段落名が付与されており(例えば、課題を解決するための手段の欄や、発明の効果の欄など)、文献内の区切りが示されている。しかし、特許文献の分析の際には膨大な量の特許文献を対象とし、場合によっては数十ページにも及ぶ特許文献から発明の効果等の目的の段落を見つけ出すのは煩雑な作業となる。
こうした問題に対し、発明の効果に相当する表現を自動的に特定する技術が開発されている。従来技術では、発明の効果に関する記述が「<何>に対して、どういう<作用>が得られるのか」という意味構造をもつことを前提として抽出する。なお、以下では文の構造的な要素を概念的に指し示す場合には、“<”と“>”で括った<何>や<作用>等で表すこととする。
例えば、
「上述したように本発明の電力用半導体装置によれば、ターンオフ損失とオン電圧を最小化することができる。」
という文があった場合、<何>は“ターンオフ損失とオン電圧”、<作用>は“最小化”が対応する。この下線の部分をここでは効果表現と呼ぶこととする。
このような効果表現を抽出する際、従来は文末表現を利用している。発明の効果を表す文の文末には、「〜することができる」、「〜が可能となる」といったような決まった表現が出現する場合が多い。このような定型句を手がかり句として明細書の全ての文の中から該当する文末表現をもつ文を特定し、構文パターンを利用して、その文末句の直前の名詞句(“最小化”)とその句の目的語に相当する名詞句(“ターンオフ損失とオン電圧”)を、効果表現として抽出する(例えば、非特許文献1)。
その際、さまざまな文末表現を網羅するのは困難なため、自動獲得するための方法も考案されている(例えば、非特許文献2)。
特に、非特許文献2は機械的に文末表現を取得する技術として一定の効果が示されている。
例えば、初期文末表現として“することができる”を入力すると、過去に出願された特許文献の中から末尾が“することができる”である文を抽出する。
次に、“することができる”の直前の語を抽出する。上記の例文の場合、“最小化”が得られる。
今度は“最小化”を文末表現の直前に持つ文を文献群から抽出する。それによって、“最小化が可能となる”という文があった場合、“可能となる”という文末表現を新たに得ることができる。
このように、文末表現と、文末表現の直前で効果表現中に現れやすい語の取得を交互に繰り返すことで、文末表現に加えて効果表現中に現れやすい語の辞書の自動獲得が可能となる。
非特許文献2では、これら自動獲得した2つの表現辞書との文字列のマッチングにより効果表現を取得している。
また、「<何>に対して、どういう<作用>が得られるのか」とったように、特定の意味をもったフレーズを抽出する類似技術に評判情報抽出がある。評判情報抽出とは、例えば、デジタルカメラや車などの製品や、レストランなどの評価や感想をWebページから抽出する技術である。
評判情報抽出は、「何(<事物>)のどの部分(<属性>)に対してどういう評価(<評価>)をしている」のかを表す文をWebページから抽出する。<事物>、<属性>、<評判>には、例えば、「A社のデジカメ(<事物>)は起動(<属性>)が早い(<評判>)。」などの表現が相当する。
<事物>、<属性>、<評判>の抽出は、<事物>はある製品などに固定して既知であるものとし、<属性>、<評判>は、その製品に対して使われ得る単語を網羅したそれぞれの辞書を用いる場合がほとんどである。
評判情報抽出は、<属性>、<評判>に相当する語は基本的に辞書との文字列マッチングであり、マッチングした語の中から正しい<属性>と<評判>の対を見つける方法に特徴がある。カイ二乗統計量を使用して組を判定する方法(例えば、特許文献1)や機械学習(例えば、特許文献2)により判定する方法などが開発されている。
特開2000−137720公報 特開2007−172179公報
西山莉紗、外3名、新技術が持つ特長に注目した技術調査支援ツール、人工知能学会論文誌、24巻6号、pp.541−548、2009. 酒井浩之、外2名、特許明細書からの技術課題情報の抽出、人工知能学会論文誌、24巻6号、pp.531−540、2009.
しかし、非特許文献1により開示されている方法は、例えば「安価なビデオ検索装置が提供できる」といったような場合、“安価”と“ビデオ検索装置”をそれぞれ特定する必要があるが、<作用>である“安価”が、<何>である“ビデオ検索装置”の前に配置されているため正しく意味構造を捉えた効果表現が抽出できないという問題がある。
非特許文献2により開示されている方法は、文末表現と、文末表現の直前の効果表現中の語が同時に文中に現れる度合い(共起度)に基づいてそれぞれの辞書を自動獲得する技術であって、効果表現の抽出方法は基本的に文字列マッチングと構文パターンを利用した方法である。さらには、文字列のマッチングによる抽出であるため、辞書に無い表現が現れた場合には効果表現を抽出できない。
特許文献1、及び2により開示されている評判情報抽出技術のようなアプローチは、デジタルカメラや車といったように対象を限定するため、<属性>や<評判>の辞書はその対象に限った単語だけを集めればよい。それに対して、特許文献を対象とする場合には、多くの技術分野が存在するため、それぞれの技術分野に対応した辞書を作成するのは非常に困難であり、現実的ではない。
本発明では、こうした多様な意味構造をもち、かつ、多様な文末表現、技術分野をもつ効果表現についても抽出が可能となる文書分析装置、及び文書分析方法を提供するものである。
本発明の代表的な一例を示せば以下の通りである。すなわち、プロセッサと、前記プロセッサに接続されるメモリと、を備え、与えられた特許文献の文の中から効果表現を抽出する文書分析装置であって、効果要素判定制御部と、尺度要素判定制御部と、対象要素判定制御部と、効果表現特定部と、構成要素判定結果記憶部と、を備え、前記効果要素判定制御部は、前記与えられた特許文献中の文の中から、効果要素である単語を特定する処理を制御し、前記尺度要素判定制御部は、前記与えられた特許文献中の文の中から、前記効果要素判定制御部の処理により得られた効果要素の判定結果を用いて、尺度要素である単語を特定する処理を制御し、前記対象要素判定制御部は、前記与えられた特許文献中の文の中から、前記効果要素判定制御部の処理により得られた効果要素の判定結果と、前記尺度要素判定制御部の処理により得られた尺度要素の判定結果と、を用いて、対象要素である単語を特定する処理を制御し、前記効果表現特定部は、前記与えられた特許文献の文の中から効果表現を特定する、ことを特徴とする文書分析装置とそれを用いた文書分析方法。
本発明では、効果表現を<効果>、<尺度>、<対象>の3つの要素に分解し、この<効果>、<尺度>、<対象>の順番で特定することに特徴がある。
例えば、「誤り検出の精度を向上させる」といった効果表現の場合、<効果>が「向上」、<尺度>が「精度」、<対象>が「誤り検出」となる。<効果>が“向上”、“低減”といった効果を表す語、<尺度>が“速度”や“生産性”といったその属性を表す語、<対象>が“変換”、“除去”といったその対象となる動作を表す語がそれぞれ対応する構成としている。
このような構成とすることで、技術分野に共通する技術用語が対応する<効果>、<尺度>と、そうではない<対象>に効果表現を分解することができる。
特許には多くの技術分野、さまざまな技術用語があり、効果表現の抽出は難しい。しかしながら、技術分野に共通して出現する<効果>をまず初めに高い精度で判定し、次に、精度の高い<効果>の判定結果を利用して<尺度>を判定し、さらに、<効果>、<尺度>の判定結果を利用することで、<対象>を高い精度で判定できるようになる。
結果として、3つの要素を独立して判定するよりも、高い精度で効果表現を抽出することができる。例えば、効果表現が「<A>の<B>が<C>する」という構造である場合には、「<C>する」の箇所が“向上する”や“高める”など、技術分野に共通した要素であることから、高い精度で<効果>と判定でき、次に、「<B>が」の箇所を<尺度>と判定し、最後に「<A>の」の箇所を<対象>と判定可能となる。
また、特許文献1,2や非特許文献1、2のように辞書に無い単語の場合は特定できなくなるのではなく、以前の構成要素特定結果を特徴量として利用し、教師あり機械学習により特定することで、辞書に無い効果表現の場合でも特定が可能となる。
上記構成とすることで、特許文献における効果表現を高精度で抽出し、分析することが可能となる。
本発明の実施形態の文書分析装置を示したブロック図である。 本発明の実施形態の情報端末における文書分析の処理を示したフローチャートである。 本発明の実施形態の文献データベースの一例を示した説明図である。 本発明の実施形態の<効果>判定処理を示したフローチャートである。 本発明の実施形態の入力文中の単語を数値ベクトルに変換する処理の一例を示した説明図である。 本発明の実施形態の構成要素判定結果記憶部の一例を示した説明図である。 本発明の実施形態の構成要素抽出モデルデータベースの一例を示したフローチャートである。 本発明の実施形態の効果表現データベースの一例を示した説明図である。 本発明の実施形態の尺度要素判定処理を示したフローチャートである。 本発明の実施形態の<効果>の判定結果を単語の素性に含める場合の単語の数値ベクトルへの変換処理を示した図である。 本発明の実施形態の対象要素判定処理を示したフローチャートである。 本発明の実施形態の効果表現を抽出する処理を示したフローチャートである。 本発明の実施形態の効果表現を抽出する処理の一例を示した説明図である。 本発明の実施形態の効果表現の抽出結果表示の一例を示した説明図である。
図1は、本発明の実施形態の文書分析装置を示すブロック図である。
本発明の実施形態の文書分析装置は、情報端末10と、効果表現データベース115、構成要素抽出モデルデータベース116及び文献データベース117の3つのデータベースと、ネットワーク114とを備える。情報端末10及び3つのデータベースは、ネットワーク114によって接続されているが、情報端末10が3つのデータベースを備えてもよい。
情報端末10は、CPU101と、メモリ102と、キーボード及びマウス103と、ディスプレイ104と、データ通信部113とを備える計算機である。また、情報端末10は、言語処理解析部105、学習分類部106、効果要素判定制御部107、尺度要素判定制御部108、対象要素判定制御部109、効果表現特定部110、構成要素判定結果記憶部111及び文書表示部112の機能を提供するプログラムを含む。
CPU101は、言語処理解析部105、学習分類部106、効果要素判定制御部107、尺度要素判定制御部108、対象要素判定制御部109、効果表現特定部110、構成要素判定結果記憶部111及び文書表示部112の機能を持つプログラムを実行することによって、文書分析の処理を実行する。メモリ102は、CPU101によって実行されるプログラム及びプログラムを実行するために必要なデータを一時的に記憶する。
キーボード及びマウス103は、ユーザが情報を入力する装置である。ディスプレイ104には、特許文献の効果表現を抽出した結果が表示される。
言語処理解析部105は、情報端末10に入力されたユーザからの検索要求に従って特許文献の集合を取得する処理と、取得した特許文献を各文に分割する処理や、文節や単語に分割する処理、文節間の係り受け関係を特定する処理を行う。 学習分類部106は、単語を<効果>、<尺度>、<対象>のいずれかの構成要素であるかどうかを判定する処理を行う。
効果要素判定制御部107は、言語処理解析部105が分割した単語が効果要素であるかどうかを判定する処理を制御する。
尺度要素判定制御部108は、言語処理解析部105が分割した単語が<尺度>であるかどうかを判定する処理を制御する。
対象要素判定制御部109は、言語処理解析部105が分割した単語が<対象>であるかどうかを判定する処理を制御する。
効果表現特定部110は、入力文内の効果要素判定制御部107、尺度要素判定制御部108、対象要素判定制御部109による<効果>、<尺度>、<対象>判定結果に従って、効果表現を特定する。
構成要素判定結果記憶部111は、入力文内の効果要素判定制御部107、尺度要素判定制御部108、対象要素判定制御部109による<効果>、<尺度>、対象要素判定結果を一時的に記憶する。
文書表示部108は、入力された特許文献に対して効果表現を特定した結果を、ディスプレイ104に表示させる。
データ通信部113は、情報端末10がネットワーク114を介してデータ通信をするインターフェースであり、例えば、TCP/IPプロトコルによって通信可能なLANカードである。
情報端末10は、データ通信部113を介してネットワーク114に接続された3つのデータベースと通信する。
効果表現データベース115には、<効果>、<尺度>、<対象>が特定された特許文献群が格納されている。
構成要素抽出モデルデータベース116は、効果表現データベース115に格納されている、予め<効果>、<尺度>、<対象>が特定された特許文献群を訓練データとして生成された各要素を判定するための効果要素、尺度要素、対象要素判定モデルがそれぞれ格納されている。
文献データベース117には、文献に関する各種情報が登録されている。発明者などの書誌情報の検索に加え、文書全文も検索できる。
図2は、本発明の実施形態の情報端末における文書分析の処理を示したフローチャートである。
図2において、言語処理解析部105、効果要素判定制御部107、尺度要素判定制御部108、対象要素判定制御部109、効果表現特定部110、構成要素判定結果記憶部111及び文書表示部112によって実行される文書分析の処理の概要を説明する。
まず、ユーザがキーボード・マウス103を用いて検索クエリを入力する。言語処理解析部105は、ユーザ入力の検索クエリに合致する文献群を、文献データベース117から検索し、取得する(S201)。
さらに、入力された特許文献を各文に分割する(S202)。そして、効果要素判定制御部107に文単位で渡す。その際に、文を単語に分割した状態で効果要素判定制御部107に渡す(S203)。単語への分割には従来の形態素解析技術を用いて単語分割し、各単語の表記、品詞等の情報を取得する。
効果要素判定制御部107は単語に分割された文を受け取り、構成要素抽出モデルデータベース116に格納されている効果要素特定モデルを用いて、各単語が<効果>であるかどうかを判定する処理を制御する(S204)。効果要素判定制御部107による<効果>の判定方法は図4を用いて後述する。
尺度要素判定制御部108は、効果要素判定制御部107により<効果>が判定された結果を含む、単語に分割された文を受け取り、構成要素抽出モデルデータベース115に格納されている尺度要素判定モデルを用いて、各単語が<尺度>であるかどうかを判定する処理を制御する(S205)。尺度要素判定制御部108による<尺度>の判定方法は図9を用いて後述する。
対象要素判定制御部109は、効果要素判定制御部107と尺度要素判定部108により<効果>、<尺度>が判定された結果を含む、単語に分割された文を受け取り、構成要素抽出モデルデータベース116に格納されている対象要素判定モデルを用いて、各単語が<対象>であるかどうかを判定する処理を制御する(S206)。対象要素判定制御部109による<対象>の判定方法は図11を用いて後述する。
効果表現特定部110は、効果要素判定制御部107と尺度要素判定部108と対象要素判定部109により<効果>、<尺度>、<対象>が判定された結果を含む、単語に分割された文を受け取り、効果表現である領域を特定する(S207)。効果表現特定部110による効果表現の特定方法は図12を用いて後述する。
入力された特許文献について効果表現の特定が終了していない文がある場合はそれらの文に対して引き続き効果表現の特定処理を行い(S208においてYesと判定された場合)、全ての文について、効果表現の特定が終了した場合は文書分析処理を終了する(S208においてNoと判定された場合)。
以下において、S201における文書検索処理、S204における効果要素判定処理、S205における尺度要素判定処理、S206における対象要素判定処理の詳細を順に説明する。
図3に、文献データベース117に格納するデータのデータ形式とデータ例を示す。301は格納する文書を識別する番号である。302は発明者、303は出願年、304はその文書に付与している国際特許分類などの分類である。本データ形式はあくまでも一例であり、例えば、公開年やFタームなどの書誌情報があってもよい。305には文献全文を格納する。
S201の検索には既存の文書検索方法を用いる。検索クエリにはキーワードを指定してもよいし、文献データベース117に格納された書誌情報を指定してもよい。また、キーワードや書誌情報を複数入力した場合には、それぞれから検索した文献集合間でAND、OR、NOT演算を行う。
図4は、効果要素判定制御部107により、文中の単語が<効果>であるかどうかを判定する処理フローである。
効果要素判定制御部107は、言語処理解析部105により単語に分割された文を入力として受け取る。
効果要素判定制御部107は、入力として受け取った文内の単語の特徴量を取得し、数値ベクトルに変換する(S401)。特徴量には少なくとも、対象とする単語と一定範囲にある単語に関する情報を含むものとする。一定の範囲とは例えば、対象とする単語の前後2単語(計4単語)や、対象とする単語を含む文節の係り元、もしくは係り先の文節内の主辞の単語などがある。係り元や係り先の文節は従来の係り受け解析技術により特定する。
対象とする単語とその一定範囲にある単語について、言語処理解析部105により取得した情報を素性として用いる。単語の素性には例えば、単語の文字列自体や品詞、活用型、活用形といった情報がある。
これらの素性を数値化して最終的に数値ベクトルに変換する。数値ベクトルへの変換方法としては、単語の文字列自体や品詞、活用型、活用形にIDを与え、IDの該当する箇所を1とした、各要素が0、1のベクトルとする方法などがある(上記、基本的な言語処理解析技術に関する詳細については、例えば、「情報検索と言語処理」徳永健伸著、東京大学出版会、1999年発行 を参照)。
この他にも、対象とする単語の特徴量として、所属する文に関する情報などを用いてもよい。特許文献には[背景技術]といった段落に名前が付してある場合がほとんどであるので、対象単語が属する文が文書内のどの段落に属しているか、段落内のどの位置にあるか(段落内の前半なのか後半なのか)といった情報を特徴量として用いてもよい。また、効果表現は、[発明の効果]段落内の後半に記述されることがほとんどであるため、段落とその位置に関する情報は効果表現の特定精度を向上させる可能性が高い。
さらに、例えば、<効果>の一例である「最小化」、「低減化」の「化」や<尺度>の一例である「速度」、「安定度」の「度」のように、<効果>や<尺度>として用いられやすい文字を単語の素性として用いてもよい。これら頻出文字を辞書化し、特徴量に用いた単語が辞書内の語を含んでいる場合は1、そうでない場合は0とした素性を用いることで、<効果>、<尺度>の特定精度が向上する可能性がある。
図5に対象とする形態素の数値ベクトルの一例を示す。
501は入力として与えられた文、502は単語分割の結果、503は係り受け解析の結果、504は単語「細かい」を対象とした前後2単語と係り元、係り先単語を特徴量とした数値ベクトル内での配置、505は単語の特徴量内素性を数値化した一例である。
「音素の細かいグループ毎に話者クラスタリングを行う。」という文は「音素/の/細かい/グループ/毎/に/話者/クラスタリング/を/行う/。/」と単語分割されるため、2つ前の単語として「音素」が、1つ前の単語として「の」、1つ後の単語として「グループ」、2つ後の単語として「毎」が特徴量として用いられる。また、係り受け解析により係り元の文節の主辞の単語として「音素」が、係り先の文節の主辞の単語として「グループ」が特徴量として用いられる。これらを数値ベクトルとして配置した概念図が504である。
さらに、これらの単語に対して、形態素解析の結果を対応させる。対象とする単語である「細かい」を例に示したのが505である。505の各要素が形態素解析で得られた情報に対応している。
単語「細かい」は、形態素解析により、品詞が「形容詞」、活用型が「形容詞・アウオ段」、活用形が「基本形」を得る。したがって、文字列自体の情報である「音素」や「名詞」といった箇所は0となり、「細かい」、「形容詞」、「形容詞・アウオ段」、「基本形」の箇所に1が設定される。
他の例として、「細かい」の2つ前の単語の特徴量である「音素」の場合には、「音素」、「名詞」に1が設定されることとなる(活用型、活用形をもたないのでこれらは全て0が設定される)。最終的に、「音素」、「の」、「細かい」、「グループ」、「毎」、「音素」、「グループ」の順に、それぞれ505と同様に単語の素性を数値化したものを一列に並べたものが対象単語「細かい」の数値ベクトルとなる。
効果要素判定制御部107は、上記S401により取得した特徴量を用いた数値ベクトルを学習分類部106に渡す。学習分類部106は数値ベクトルとして受け取った単語が<効果>であるかを、構成要素抽出モデルデータベース116に格納された効果要素判定モデルを用いて判定する(S402)。学習分類部106には従来の教師ありの機械学習方式を用いる。学習分類部106は、構成要素抽出モデルデータベース116から効果要素判定モデルを取得し、S401で取得した対象単語の数値ベクトルに対して効果要素判定モデルを適用することで、対象単語の効果要素らしさを示す学習スコアを得る。このスコアに対して、本発明による文書文分析装置の管理者が予め設定した閾値により対象単語が<効果>であるか否かを判定する。
最後に、構成要素判定結果記憶部111は、入力文中の単語のうち<効果>と判定した単語を記憶し処理を終了する(S403)。
図6は効果要素判定後の構成要素判定結果記憶部111の状態を示す一例である。構成要素判定結果記憶部111は、<効果>と判定された単語の文字列の情報と文の先頭からの文字数と、判定された要素の種類(<効果>、<尺度>、<対象>のいずれか)を1つのエントリとして、入力文の解析が終了する(図2のS207までの処理を終了する)まで保持する。
「音素の細かいグループ毎に話者クラスタリングを行う。」の例では「細かい」が<効果>と判定され、文の先頭から文字数である4とともに、構成要素判定結果記憶部111に保持される。
ここで、構成要素抽出モデルデータベース116に格納された効果要素判定モデル、尺度要素判定モデル、対象要素判定モデルの生成方法について述べる。
これらのモデルは図2で述べた効果表現抽出フローとは独立して事前に作成しておく。
効果表現データベース115には、<効果>、<尺度>、<対象>が予め特定された特許文献群が格納されており、これらの文献を用いて教師あり機械学習により、効果要素、尺度要素、対象要素判定モデルをそれぞれ生成する。
図7は構成要素抽出モデルデータベース116の概念図の一例である。効果要素判定モデル、尺度要素判定モデル、対象要素判定モデルがそれぞれ格納されている。
図8は、効果表現データベース115の一例を示した図である。801は文献を識別する番号、802は<効果>、<尺度>、<対象>が特定された文献の本文である。802の文献の各文は人手により<効果>、<尺度>、<対象>を特定した箇所が各要素であることが明確に判別可能な状態で格納されている。例えば、802に示したように、<効果>、<尺度>、<対象>タグを付与するといった方法がある。
例えば効果要素判定モデルの生成の場合、効果表現データベース115に格納されている文献内の文に対して、S401と同様の処理により抽出した単語の数値ベクトルを生成し、数値ベクトルに対応する単語に<効果>タグが付与されている場合は+1、そうでない場合は−1とした特徴量を数値ベクトルに追加する。このようにして作成した数値ベクトルを、効果表現データベース115内のすべての単語に対して生成したデータに対して、周知の教師あり機械学習を用いて効果要素判定モデルを生成し、構成要素抽出モデルデータベース116に格納する。
尺度要素、対象要素判定モデルに関しても、<尺度>、<対象>タグが付与された単語には+1、そうでない単語には−1とした数値ベクトルを生成する。さらに、尺度要素判定モデルの場合は効果要素判定結果が、対象要素判定モデルの場合は効果要素判定結果と尺度要素判定結果が、各単語の素性として追加された数値ベクトルにより、判定モデルが生成される。素性の追加方法については後述する。これらの数値ベクトルに対して、上記と同様に教師あり機械学習により、それぞれの要素判定モデルを生成し、構成要素抽出モデルデータベース116に格納する。
構成要素抽出モデルデータベース116に格納する情報は教師あり機械学習方式に何を選択したのかによって異なる。本発明では教師あり機械学習方式の選択は任意であるが、例えば、サポートベクターマシーンを選択した場合は、サポートベクターマシーンによって生成されたモデルが格納される(サポートベクターマシーンを含めた、教師あり機械学習方式のモデル生成に関する詳細については、例えば、「The Elements of Statistical Learning:Data Mining, Inference, and Prediction」、Trevor Hastie他著、Springer−Verlag、2003年発行 を参照)。
次に、S205における尺度要素判定処理の詳細を説明する。
図9は、尺度要素判定制御部108により、文中の単語が<尺度>であるかどうかを判定する処理フローである。
尺度要素判定制御部108は、効果要素判定制御部107より単語に分割された文を受け取る。尺度要素判定制御部108は、入力として受け取った文内の単語の特徴量を取得し、数値ベクトルに変換する(S901)。S901は図4で示したS401と同様の処理となるので詳細説明は省略する。
次に、尺度要素判定制御部108は、構成要素判定結果記憶部111から<効果>の判定結果を取得する。入力文内の単語に<効果>であると判定された単語がある場合には、数値ベクトルの該当する単語に効果要素判定結果の素性を追加し、1を設定する。<効果>として判定されていない場合は0を設定する(S902)。
図10は、図5で示した例文において効果要素判定処理により単語「細かい」が<効果>として判定された場合の効果要素判定結果を素性として追加した数値ベクトルの概念図の一例である。
図10の1001、1002に単語「細かい」が対象単語の場合の数値ベクトルの例を示す。素性の右端に、効果要素判定結果として素性が追加され、1が設定される。また、対象単語の特徴量以外の箇所に現れた場合にも効果要素判定結果の素性が追加される。例えば、1003、1004、1005は単語「グループ」が対象単語である場合の例である。単語「グループ」は<効果>であると判定されていないので「グループ」の効果要素判定結果の素性は0であるが、「細かい」は1つ前の単語と係り元の単語の特徴量として位置しており、効果要素判定結果の素性に1が設定される。
次に、尺度要素判定制御部108は、S901、S902で生成した数値ベクトルを学習分類部106に渡す。学習分類部106は数値ベクトルとして受け取った単語が<尺度>であるかを、構成要素抽出モデルデータベース116に格納された尺度要素判定モデルを用いて判定する(S903)。本ステップの学習分類部による尺度要素判定処理は、基本的に図4で示したS402と処理が同様である。しかし、数値ベクトルの各単語に効果要素判定結果素性が追加されており、要素判定モデルが尺度要素判定モデルである点が異なる。効果要素判定結果が単語の素性としてあることにより、<尺度>をより高精度に判定可能となる。処理の概要はS402とほぼ同様なので省略する。
最後に、構成要素判定結果記憶部111は、入力文中の単語のうち<尺度>と判定した単語を追加し処理を終了する(S904)。
次に、S206における対象要素判定処理の詳細を説明する。
図11は、対象要素判定制御部108により、文中の単語が<対象>であるかどうかを判定する処理フローである。
対象要素判定制御部109は、尺度要素判定制御部108より単語に分割された文を受け取る。対象要素判定制御部109は、入力として受け取った文内の単語の特徴量を取得し、数値ベクトルに変換する(S1101)。S1101についても図4で示したS401と同様の処理となるので詳細説明は省略する。
次に、対象要素判定制御部109は、構成要素判定結果記憶部111より<効果>の判定結果を取得し、数値ベクトルの該当する単語に素性を追加する(S1102)。
さらに、対象要素判定制御部109は、構成要素判定結果記憶部111より<尺度>の判定結果を取得する(S1103)。本ステップも図9で示したS902と同様の処理であり、該当する単語が<尺度>と判定されていた場合には、該当する単語の右端に尺度要素判定結果として1を設定する。<尺度>と判定されていない場合には0を設定する。
次に、S1101、S1102、S1103で生成した数値ベクトルを対象要素判定制御部109は学習分類部106に渡す。学習分類部106は数値ベクトルとして受け取った単語が<対象>であるかを、構成要素抽出モデルデータベース116に格納された対象要素判定モデルを用いて判定する(S1104)。本ステップも、基本的に図4で示したS402と処理が同様である。しかし、数値ベクトルの各単語に効果要素判定結果と尺度要素判定結果素性が追加されており、要素判定モデルが対象要素判定モデルである点が異なる。効果要素判定結果と尺度要素判定結果が単語の素性としてあることにより、<対象>をより高精度に判定可能となる。処理の概要はS402とほぼ同様なので省略する。
最後に、構成要素判定結果記憶部111は、入力文中の単語のうち<対象>と判定した単語を追加し処理を終了する(S1105)。
以上で、入力とした特許文献の各文に対する<効果>、<尺度>、<対象>の特定処理が終了する。
上記特定処理が終了した後、効果表現特定部110により、<効果>、<尺度>、<対象>の任意の組合せによる効果表現の特定処理が行われる。以下ではその詳細を示す。
図12は効果表現特定部110による効果表現特定処理のフローである。
効果表現特定部110は、まず、入力として与えられた文に対する現在位置を文の先頭の文節に設定し、効果表現領域を空にする(S1201)。
次に、文の先頭から初めに<効果>、<尺度>、<対象>をもつ文節に現在位置を設定する(S1202)。入力文に<効果>、<尺度>、<対象>をもつ文節が無く、文の最後まで到達してしまった場合(S1202においてNoと判定された場合)は処理を終了する。
文の先頭から<効果>、<尺度>、<対象>をもつ文節があった場合はその文節を現在位置に設定してS1203に進む。
次に、現在位置の文節を取得し(S1203)、その文節内に<効果>、<尺度>、<対象>と判定された単語の有無を確認する(S1204)。効果表現特定部110は、現在の文節が文の先頭から何文字目かを取得し、構成要素判定結果記憶部111に記憶された情報を抽出して、現在位置の文節内に<効果>、<尺度>、<対象>があるかどうかを確認する。
文節内に3つの要素のいずれもが無い場合(S1204においてNoと判定された場合)は、現在の効果表現領域を効果表現として出力する(S1207)。
文節内に3つの要素のいずれかがある場合(S1204においてYesと判定された場合)は、その文節を効果表現領域に加える(S1205)。
次に、現在位置の文節が効果表現の終了条件に合致するかどうかを判定する(S1206)。終了条件は、「現在位置の文節が句点を含む」や「現在位置の文節からの係り先文節が無い」、「“及び”や“且つ”を直後に含む」などである。
終了条件に合致した場合(S1206においてYesと判定された場合)、現在の効果表現領域を効果表現として出力(S1207)して処理を終了する。
終了条件に合致しなかった場合(S1206においてNoと判定された場合)は、現在位置の文節の係り先文節を現在位置とし(S1208)、S1203の処理を行う。
図13により、上記効果表現を取得する処理の一例を示す。
1301は、効果表現特定部110が入力として受け取る文の一例である。「音素の」や「できるだけ」といったように文節に分解されており、また、それぞれの矢印は文節間の係り受け関係を示す。1302は、構成要素判定結果記憶部111に記憶された入力文1301に関する<効果>、<尺度>、<対象>の判定結果である。
効果表現特定部110は、まず初めに現在位置を文の先頭とし、効果表現領域を空とする。
次に、文の先頭から文節を辿り、初めの<効果>、<尺度>、<対象>のいずれかの要素をもつ文節を見つける。「音素の」は構成要素判定結果記憶部111より、構成要素を含んでいないため、次の「細かい」へ移動する。
「細かい」は、構成要素判定結果記憶部111より、<効果>を含んでいるので現在位置に設定する(S1202)。
次に、現在位置である「細かい」を取得し(S1203)、<効果>、<尺度>、<対象>があるかどうかを構成要素判定結果記憶部111より確認し、<効果>がある(S1204においてYesと判定)ので、「細かい」を効果表現領域に加える(S1205)。その際、該当箇所に要素と同名のタグを付与する。したがって、この時点で効果表現領域は「<効果>細かい</効果>」である。
現在位置文節「細かい」は上記終了条件に合致しない(S1206においてNoと判定)ため、係り先文節である「グループ毎に」を現在位置に設定する(S1208)。
現在位置文節「グループ毎に」(S1203)についても、単語「グループ」が構成要素判定結果記憶部111により、<尺度>であることが確認される(S1204においてYesと判定)ので、効果表現に加え(S1205)、終了条件に合致しない(S1206においてNoと判定)ので係り先文節である「話者クラスタリングを」を取得する(S1208)。この時点で、効果表現領域は「<効果>細かい</効果><尺度>グループ</尺度>毎に」となる。また、係り受け関係により「大量の」は処理対象から除かれる。
さらに、現在位置文節「話者クラスタリングを」には、構成要素判定結果記憶部111より、単語「クラスタリング」が<対象>であることが確認されるので、効果表現領域に加えられる。したがって、効果表現領域は「<効果>細かい</効果><尺度>グループ</尺度>毎に話者<対象>クラスタリング</対象>を」となる。
「話者クラスタリングを」も終了条件に合致せず、係り先文節「行う。」があるので、現在位置文節を「行う。」に設定する。
現在位置文節「行う。」は、構成要素判定結果記憶部111より、3つの要素のいずれも含んでいない(S1204においてNoと判定)ことから、現在の効果表現領域である「<効果>細かい</効果><尺度>グループ</尺度>毎に話者<対象>クラスタリング</対象>を」を効果表現として出力(S1207)し、処理を終了する。
図14は本発明の文書分析装置の実施形態による効果表現抽出結果表示の一例を示した説明図である。
1401は、ユーザが入力した複数の特許文献に対して、各文献とその文献から抽出された効果表現を一覧にして表示した例である。1401では、文献名と効果表現のみの対応としているが、発明の名称や出願人等の各種書誌情報とともに表示してもよい。1401に示した表示例により、入力とした特許文献がどういった発明の効果を主張しているのかが一目でわかるようになる。
1402、1403は、1401の結果一覧のうち、ユーザがある特定の文献の本文表示を行った場合の、特許文献の全文と効果表現の対応を表示した一例である。
1402は、ユーザが指定した文献の本文とともに、抽出した効果表現部をハイライトすることで、効果表現部の確認を容易とした表示の一例である。
1403は、ユーザが指定した文献から抽出された効果表現の一覧を表示した一例である。
上記で示した表示例のように、本発明による文書分析装置により、ユーザ入力の特許文献中の文全体から、効果表現を抽出し、一覧や本文と対応させて表示することで、それら特許文献が主張する発明の効果を即座に把握することができ、特許文献の分析が容易に可能となる。
10 情報端末
101 CPU
102 メモリ
103 キーボード・マウス
104 ディスプレイ
105 言語処理解析部
106 学習分類部
107 効果要素判定制御部
108 尺度要素判定制御部
109 対象要素判定制御部
110 効果表現特定部
111 構成要素判定結果記憶部
112 文書表示部
113 データ通信部
114 ネットワーク
115 効果表現データベース
116 構成要素抽出モデルデータベース
117 文献データベース

Claims (10)

  1. プロセッサと、前記プロセッサに接続されるメモリと、を備え、入力された特許文献の文の中から効果表現を抽出する文書分析装置であって、
    特許文献を入力する手段と、
    効果要素判定制御部と、尺度要素判定制御部と、対象要素判定制御部と、効果表現特定部と、構成要素判定結果記憶部と、を備え、
    前記効果要素判定制御部は、前記入力された特許文献中の文の中から、効果要素である単語を特定する処理を制御し、
    前記尺度要素判定制御部は、前記入力された特許文献中の文の中から、前記効果要素判定制御部の処理により得られた効果要素の判定結果を用いて、尺度要素である単語を特定する処理を制御し、
    前記対象要素判定制御部は、前記与えられた特許文献中の文の中から、前記効果要素判定制御部の処理により得られた効果要素の判定結果と、前記尺度要素判定制御部の処理により得られた尺度要素の判定結果と、を用いて、対象要素である単語を特定する処理を制御し、
    前記効果表現特定部は、前記入力された特許文献の文の中から効果表現を特定する、ことを特徴とする文書分析装置。
  2. 前記効果要素判定制御部は、前記入力された特許文献中の文に対して、前記言語処理解析部により得た単語情報に基づき、学習分類部により効果要素である単語を特定することを特徴とする請求項1に記載の文書分析装置。
  3. 前記尺度要素判定制御部は、前記入力された特許文献中の文に対して、前記言語処理解析部により得た単語情報と、前記効果要素判定制御部による効果要素判定結果に基づき、学習分類部により尺度要素である単語を特定することを特徴とする請求項1に記載の文書分析装置。
  4. 前記対象要素判定制御部は、前記入力された特許文献中の文に対して、前記言語処理解析部により得た単語情報と、前記効果要素判定制御部による効果要素判定結果と、前記尺度要素判定制御部による尺度要素判定結果に基づき、学習分類部により対象要素である単語を特定することを特徴とする請求項1に記載の文書分析装置。
  5. 前記効果表現特定部は、前記言語処理解析部により得られる情報に基づき、前記効果要素判定制御部の処理により得られた効果要素の判定結果と、前記尺度要素判定制御部の処理により得られた尺度要素の判定結果と、前記対象要素判定制御部の処理により得られた対象要素の判定結果と、を用いて、効果表現を特定する請求項1に記載の文書分析装置。
  6. プロセッサと、前記プロセッサに接続されるメモリと、を備えた文書分析装置を用いて入力された特許文献の文の中から効果表現を抽出する文書分析方法であって、
    前記特許文献が、前記文書分析装置に入力されるステップと、
    前記プロセッサが、前記入力された特許文献中の文の中から、効果要素である単語を特定する処理を制御し、
    その後、前記プロセッサが、前記入力された特許文献中の文の中から、前記効果要素の判定結果を用いて、尺度要素である単語を特定する処理を制御し、
    その後、前記プロセッサが、前記入力された特許文献中の文の中から、前記効果要素の判定結果と、前記尺度要素の判定結果と、を用いて、対象要素である単語を特定する処理を制御し、
    前記プロセッサが、入力された特許文献の文の中から効果表現を特定する、ことを特徴とする文書分析方法。
  7. 前記プロセッサが、前記入力された特許文献中の文に対して、言語処理解析により得た単語情報に基づき、効果要素である単語を学習分類することを特徴とする請求項6に記載の文書分析方法。
  8. 前記プロセッサが、前記入力された特許文献中の文に対して、言語処理解析により得た単語情報と、前記効果要素判定結果に基づき、尺度要素である単語を学習分類することを特徴とする請求項6に記載の文書分析方法。
  9. 前記プロセッサが、前記入力された特許文献中の文に対して、言語処理解析により得た単語情報と、前記効果要素判定結果と、前記尺度要素判定結果に基づき、対象要素である単語を学習分類することを特徴とする請求項6に記載の文書分析方法。
  10. 前記プロセッサが、言語処理解析により得られる情報に基づき、前記効果要素の判定結果と、前記尺度要素の判定結果と、前記対象要素の判定結果と、を用いて、効果表現を特定する請求項6に記載の文書分析方法。
JP2010089131A 2010-04-08 2010-04-08 文書分析装置及び文書分析方法 Pending JP2011221728A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010089131A JP2011221728A (ja) 2010-04-08 2010-04-08 文書分析装置及び文書分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010089131A JP2011221728A (ja) 2010-04-08 2010-04-08 文書分析装置及び文書分析方法

Publications (1)

Publication Number Publication Date
JP2011221728A true JP2011221728A (ja) 2011-11-04

Family

ID=45038652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010089131A Pending JP2011221728A (ja) 2010-04-08 2010-04-08 文書分析装置及び文書分析方法

Country Status (1)

Country Link
JP (1) JP2011221728A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207723A1 (ja) * 2017-05-08 2018-11-15 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207723A1 (ja) * 2017-05-08 2018-11-15 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
JP2018190188A (ja) * 2017-05-08 2018-11-29 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
US11106714B2 (en) 2017-05-08 2021-08-31 National Institute Of Information And Communications Technology Summary generating apparatus, summary generating method and computer program

Similar Documents

Publication Publication Date Title
CN106570171B (zh) 一种基于语义的科技情报处理方法及系统
CN109145260B (zh) 一种文本信息自动提取方法
Choudhury et al. Figure metadata extraction from digital documents
CN111897968A (zh) 一种工业信息安全知识图谱构建方法和系统
CN106599041A (zh) 基于大数据平台的文本处理及检索系统
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN111061882A (zh) 一种知识图谱构建方法
CN115186050B (zh) 基于自然语言处理的选题推荐方法、系统及相关设备
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN110674378A (zh) 基于余弦相似度和最小编辑距离的中文语义识别方法
CN107357765A (zh) Word文档碎片化方法及装置
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
Sarwar et al. The key factors and their influence in authorship attribution.
JP2006227823A (ja) 情報処理装置及びその制御方法
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
CN107562774A (zh) 小语种词嵌入模型的生成方法、系统及问答方法和系统
CN114238735B (zh) 一种互联网数据智能采集方法
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2011221728A (ja) 文書分析装置及び文書分析方法
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体