JP6253352B2 - Document analysis support system - Google Patents
Document analysis support system Download PDFInfo
- Publication number
- JP6253352B2 JP6253352B2 JP2013227045A JP2013227045A JP6253352B2 JP 6253352 B2 JP6253352 B2 JP 6253352B2 JP 2013227045 A JP2013227045 A JP 2013227045A JP 2013227045 A JP2013227045 A JP 2013227045A JP 6253352 B2 JP6253352 B2 JP 6253352B2
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- unit
- document data
- morpheme
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 31
- 230000000877 morphologic effect Effects 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 2
- 238000013500 data storage Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000007788 liquid Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Description
本発明はデータ処理技術に関し、特に文書データの分析を支援するための技術に関する。 The present invention relates to a data processing technique, and more particularly to a technique for supporting analysis of document data.
企業が研究開発の方向性を決定するにあたっては、自社のコア技術の位置付けを明確にするとともに、競合他社の技術開発動向を把握することが重要であり、これには自社や競合他社の特許出願の分析を行うのが有用である。従来では、分析対象となる特許文献を取得し、各特許文献の要約や請求項に対して形態素解析や係り受け解析等の解析処理を実行し、解析結果に統計的な分析を施す技術が知られている(例えば特許文献1)。 When a company decides the direction of R & D, it is important to clarify the position of its core technology and to grasp the technological development trends of competitors. It is useful to conduct an analysis of Conventionally, a technology is known in which patent documents to be analyzed are acquired, analysis processing such as morphological analysis and dependency analysis is performed on the summary and claims of each patent document, and the analysis results are statistically analyzed. (For example, Patent Document 1).
形態素解析や係り受け解析等の解析処理は比較的負荷が高い処理である。このため、解析対象の特許文献が大量である場合は、この解析処理が長時間に及ぶこともある。これは上述の技術をASP型のサービスとして提供する際の足かせとなる。 Analysis processing such as morphological analysis and dependency analysis is a processing with a relatively high load. For this reason, when there are a large number of patent documents to be analyzed, this analysis process may take a long time. This hinders the provision of the above-described technology as an ASP-type service.
本発明はこうした課題に鑑みてなされたものであり、その目的は、比較的短時間で特許文献を分析することを可能とする文書分析支援システムの提供にある。 The present invention has been made in view of these problems, and an object thereof is to provide a document analysis support system that can analyze patent documents in a relatively short time.
上記課題を解決するために、本発明のある態様の文書分析支援システムは、データベースに保持される複数の文書データのそれぞれを形態素に分割した形態素情報を保持する形態素情報保持部と、データベースに保持される文書データのうち、分析対象の文書データのリストを取得するリスト取得部と、形態素情報保持部から、リストに含まれる文書データの形態素情報を抽出する解析情報抽出部と、を備える。 In order to solve the above problems, a document analysis support system according to an aspect of the present invention includes a morpheme information holding unit that holds morpheme information obtained by dividing each of a plurality of document data held in a database into morphemes, and the database holds A list acquisition unit that acquires a list of document data to be analyzed from the document data to be analyzed, and an analysis information extraction unit that extracts morpheme information of the document data included in the list from the morpheme information holding unit.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements, and the expression of the present invention converted between a method, a system, a program, a recording medium storing the program, and the like are also effective as an aspect of the present invention.
本発明によれば、比較的短時間で特許文献を分析することが可能となる。 According to the present invention, patent documents can be analyzed in a relatively short time.
本実施の形態に係る文書分析支援システムの概要は以下の通りである。
本実施の形態に係る文書分析支援システムは、特許データベースに保持されるすべての特許文献を形態素解析した結果を予め保持する。また、その解析結果を利用して係り受け解析した結果を予め保持する。文書分析支援システムは、所定の検索条件で特許データベースを検索し、分析対象の特許文献のリストを取得する。例えば「出願人A」の特許出願を分析対象とする場合は、検索条件の「出願人・権利者」に「出願人A」を設定し、特許データベースを検索する。文書分析支援システムは、予め保持された形態素情報および係り受け情報のうち、リストに含まれる特許文献についての形態素情報および係り受け情報を抽出する。そして、それらを集計等して分析する。つまり、本実施の形態に係る文書分析支援システムでは、分析したい特許文献が予め形態素解析および係り受け解析されているため、分析する際に解析を実行する必要はない。分析する際にはそれら解析結果を取得し、集計等すれば足りる。そのため、比較的短時間で特許文献を分析することが可能となる。
The outline of the document analysis support system according to the present embodiment is as follows.
The document analysis support system according to the present embodiment holds in advance the results of morphological analysis of all patent documents held in the patent database. In addition, the result of the dependency analysis using the analysis result is stored in advance. The document analysis support system searches the patent database under a predetermined search condition, and acquires a list of patent documents to be analyzed. For example, when a patent application of “Applicant A” is to be analyzed, “Applicant A” is set in “Applicant / right holder” of the search condition, and the patent database is searched. The document analysis support system extracts morpheme information and dependency information on patent documents included in the list from morpheme information and dependency information held in advance. Then, they are aggregated and analyzed. That is, in the document analysis support system according to the present embodiment, since the patent document to be analyzed is previously subjected to morphological analysis and dependency analysis, it is not necessary to perform analysis when analyzing. When analyzing, it is sufficient to acquire the results of the analysis and aggregate them. Therefore, it becomes possible to analyze patent documents in a relatively short time.
図1は、実施の形態の文書分析支援システム10の構成を示す。文書分析支援システム10は、文書分析支援装置100と、特許データベース200と、ユーザ端末300と、を備える。これらの各装置は、LAN・WAN・インターネット等、公知の通信網を介して接続される。
FIG. 1 shows a configuration of a document
文書分析支援装置100は、特許データベース200に保持される特許文献の分析を支援するための装置である。文書分析支援装置100の詳細な機能構成は図2で後述する。ユーザ端末300は、ユーザにより操作される情報処理端末である。ユーザ端末300は、ウェブブラウザがインストールされた一般的なPC(Personal Computer)端末である。ユーザ端末300は、タブレット端末やスマートフォン等であってもよい。
The document
特許データベース200は、出願公開済みの特許文献を保持する。ここでいう特許文献には経過情報等の付随的な書誌情報も含まれる。特許データベース200は、特許文献をテキスト形式で保持している。特許データベース200は、NRIサイバーパテントデスク(登録商標)や独立行政法人工業所有権情報・研修館が提供する特許電子図書館などの既存データベースであってもよい。
The
図2は、図1の文書分析支援装置100の機能構成を示すブロック図である。これら各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
FIG. 2 is a block diagram showing a functional configuration of the document
文書分析支援装置100は、解析部120と、特許文献検索部130と、特許文献リスト取得部140と、解析情報抽出部150と、集計部160と、表示制御部170と、形態素情報保持部181と、係り受け情報保持部182と、抽出形態素データ保持部183と、抽出係り受けデータ保持部184と、辞書データ保持部185と、形態素集計データ保持部186と、係り受け集計データ保持部187と、を備える。
The document
解析部120は、特許文献を解析する。解析部120は、形態素解析部121と、係り受け解析部122と、を含む。形態素解析部121は、特許データベース200に保持されるすべての特許文献の形態素解析を実行する。ここで形態素解析とは、文章を意味を持つ最小単位の文字列(形態素)に分割し、分割された文字列を品詞に分類することをいう。例えば、「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。
The
形態素解析部121は、辞書データ保持部185に保持される辞書データを参照して形態素解析を実行する。これにより、より的確に特許文献を形態素に分割することができる。これについては後述する。形態素解析部121は、本実施の形態では、各特許文献の要約書の課題と特許請求の範囲の請求項1を形態素解析する。なお、これらに代え、またはこれらに加え、要約書の解決手段、特許請求の範囲の他の請求項、明細書の各項目を形態素解析してもよい。形態素解析の結果得られた形態素情報は、形態素情報保持部181に保持される。形態素情報については図3で後述する。
The morpheme analysis unit 121 performs morpheme analysis with reference to the dictionary data held in the dictionary
また、形態素解析部121は、特許データベース200に保持される特許文献が更新された場合、その更新された特許文献の形態素解析を実行する。具体的には、明細書等の補正により特許文献が更新された場合、特許出願が新たに公開され、その特許文献が特許データベース200に追加された場合に、形態素解析部121はそれら更新・追加された特許文献の形態素解析を実行し、形態素情報保持部181に保持される形態素情報を更新する。一般に、特許データベース200は2週間に1回の頻度で定期更新される。形態素解析部121がその定期更新後に更新・追加された特許文献の形態素解析を実行するようスケジューリングしてもよい。もちろん、指示を受けてから形態素解析を実行するようにしてもよい。
In addition, when the patent document held in the
また、形態素解析部121は、辞書データが更新された場合も形態素解析を実行する。この場合は、すべての特許文献の解析結果に影響がある可能性があるため、形態素解析部121は、再度すべての特許文献の形態素解析を実行し、形態素情報保持部181に保持される形態素情報を更新する。
In addition, the morphological analysis unit 121 performs morphological analysis even when the dictionary data is updated. In this case, since the analysis results of all patent documents may be affected, the morpheme analysis unit 121 executes morpheme analysis of all patent documents again, and the morpheme information held in the morpheme
係り受け解析部122は、形態素解析部126における解析結果すなわち形態素情報を利用して係り受け解析を実行する。具体的には、形態素間の係り受けを決定する。係り受け解析の結果得られた係り受け情報は係り受け情報保持部182に保持される。係り受け情報については図4で後述する。係り受け解析部122は、形態素解析部121と同様、特許データベース200に保持される特許文献が更新された場合は更新された特許文献の係り受け解析を実行し、係り受け情報保持部182に保持される係り受け情報を更新する。また、辞書データが更新された場合は再度すべての特許文献の係り受け解析を実行し、係り受け情報を更新する。なお、係り受け解析部122は、形態素解析部121による形態素解析の完了を受けて係り受け解析を開始するよう構成されてもよい。
The dependency analysis unit 122 performs dependency analysis using the analysis result in the morpheme analysis unit 126, that is, morpheme information. Specifically, the dependency between morphemes is determined. The dependency information obtained as a result of the dependency analysis is held in the dependency
特許文献検索部130は分析対象の特許文献を検索する。特許文献検索部130は、検索条件取得部131と、検索式生成部132と、検索実行部133と、を含む。検索条件取得部131は、分析対象の特許文献を検索するための検索条件の入力をユーザ端末300から受け付ける。出願人・権利者名、出願人識別番号、発明者名、公開年月日、出願年月日、発明を実施するための形態や特許請求の範囲や要約などの検索のためのキーワード、などさまざまな検索条件を任意に入力できる。例えば、「出願人A」の「衛星測位」という技術分野における特許出願を分析したい場合は、出願人・権利者名に「出願人A」、発明を実施するための形態や特許請求の範囲や要約などの検索キーワードに「衛星測位」、をそれぞれ入力する。
The patent
検索式生成部132は、検索条件取得部131が受け付けた検索条件に基づき検索式21を生成する。検索実行部133は、検索式生成部132によって生成された検索式21に基づき特許データベース200を検索する。
The search
特許文献リスト取得部140は、検索実行部133による検索の結果得られた特許文献のリストもしくはユーザ端末300から指定された特許文献のリスト(以下、特許文献リスト22と総称する)を、公開番号などの文献IDの形で取得する。
The patent document
解析情報抽出部150は、特許文献の解析結果を抽出する。解析情報抽出部150は、形態素情報抽出部151と、係り受け情報抽出部152と、を含む。形態素情報抽出部151は、形態素情報保持部181から、特許文献リスト22に含まれる文献IDが特定する特許文献の形態素情報を抽出する。形態素情報抽出部151は、抽出した形態素情報を抽出形態素データ保持部183に記録する。
The analysis
係り受け情報抽出部152は、係り受け情報保持部182から、特許文献リスト22に含まれる文献ID24が特定する特許文献の係り受け情報を抽出する。係り受け情報抽出部152は、抽出した係り受け情報を抽出係り受けデータ保持部184に記録する。
The dependency
集計部160は、抽出した解析結果を集計する。集計部160は、形態素集計部161と、係り受け集計部162と、を含む。形態素集計部161は、抽出形態素データ保持部183に保持された形態素情報に含まれる各形態素の出現頻度を任意の項目でグループかしつつ集計する。どの項目でグループ化しつつ集計するかはユーザが設定すればよい。例えば、形態素集計部161は、出願人別でグループ化しつつ、各形態素の出現頻度を集計してもよい。この場合、各出願人のと拒文献において出現頻度が高い技術用語を把握することができる。また、特定の出願人の特許文献にだけ出現する技術用語を把握できる。そして、これらから、各出願人が重点を置いている技術を把握することができる。
The totaling
また例えば、形態素集計部161は、年代別、出願人別でグループ化しつつ、各形態素の出現頻度を集計してもよい。この場合、年代ごと、出願人ごとに出現頻度が高い技術用語を把握でき、各出願人の技術動向の変化を把握することができる。形態素集計部161は、集計結果を形態素集計データ保持部186に記録する。
Further, for example, the
係り受け集計部162は、抽出係り受けデータ保持部184に保持された形態素情報に含まれる各係り受け関係の出現頻度を任意の項目でグループ化しつつ集計する。どの項目でグループ化しつつ集計するかはユーザが設定すればよい。例えば、係り受け集計部162は、出願人別でグループ化しつつ、特定の形態素(例えば「課題」)と係り受け関係にある形態素の出現頻度を集計してもよい。
The
また例えば、係り受け集計部162は、特定の形態素と係り受け関係にある形態素を類義語でグループ化しつつその出現頻度を集計してもよい。例えば、「課題」という語句と係り受け関係にあり、かつ、「ユーザビリティ」、「見やすさ」、「秘匿性」、「精度向上」、「小型軽量化」、「低電力消費」と類義語である形態素の出現頻度を、それら5つの文字列ごとに集計してもよい。この場合、「ユーザビリティ」、「見やすさ」、「秘匿性」、「精度向上」、「小型軽量化」、「低電力消費」のうちのどれを課題としているかを把握することができる。係り受け集計部162は、集計結果を係り受け集計データ保持部187に記録する。
Further, for example, the
表示制御部170は、集計部160が集計した結果をユーザ端末300に表示させる。また、表示制御部170は、形態素情報抽出部151に保持された形態素情報と、係り受け情報抽出部152に保持された係り受け情報と、に主成分分析を施し、形態素情報と係り受け情報とを二次元マップ上に配置して可視化させてもよい。
The
形態素情報保持部181は、形態素情報を保持する。特に、形態素情報保持部181は、特許データベース200が保持するすべての特許文献についての形態素情報を保持する。図3は、形態素情報を示すデータ構造図である。文献ID24は特許文献を一意に特定するIDを示す。項目28は、特許文献において各形態素が含まれる項目を示す。文番号30は、各項目に含まれる文を、その項目内において一意に識別する番号を示す。形態素ID32は、各文に含まれる形態素を、その文内において一意に識別するIDを示す。形態素34は、各文に含まれる形態素を示す。品詞36は、形態素の品詞を示す。例えば、文献IDが「特開2003−0001」の特許文献の要約の1文目には「レバー(名詞)」という形態素が含まれる。
The morpheme
係り受け情報保持部182は、係り受け情報を保持する。特に、係り受け情報保持部182は、特許データベース200が保持するすべての特許文献についての係り受け情報を保持する。図4は、係り受け情報を示すデータ構造図である。形態素ID(係り元)40と、形態素(係り元)42は、それぞれ係り元の形態素IDと、形態素を示す。形態素ID(係り先)44と、形態素(係り先)46は、それぞれ係り先の形態素IDと、形態素を示す。例えば、文献IDが「特開2003−0001」の特許文献の発明の名称の1文目の「テープ(名詞)」と「印字(名詞)」とが係り受け関係にあることを示している。
The dependency
抽出形態素データ保持部183は、分析対象の特許文献の形態素情報、すなわち形態素情報抽出部151が形態素情報保持部181から抽出した形態素情報を保持する。抽出形態素データ保持部183が保持する情報のデータ構造は図3と同様である。
The extracted morpheme
抽出係り受けデータ保持部184は、分析対象の特許文献の係り受け情報、すなわち係り受け情報抽出部152が係り受け情報保持部182から抽出した係り受け情報を保持する。抽出係り受けデータ保持部184が保持する情報のデータ構造は図4と同様である。
The extracted dependency
辞書データ保持部185は、技術用語や専門用語を有する辞書データを保持する。この辞書データを参照することにより、形態素解析部121は、的確に形態素単位に分割することができる。例えば、辞書データが、気体と液体との界面を意味する技術用語である「気液界面」という用語を有していれば、特許文献にこの語句が含まれていた場合に、「気液」と「界面」の2語ではなく、「気液界面」という1つの単語として扱うことができる。
The dictionary
形態素集計データ保持部186は、形態素集計部161により集計されたデータを保持する。係り受け集計データ保持部187は、係り受け集計部162により集計されたデータ保持する。
The morpheme total
以上の構成による文書分析支援装置100の動作を説明する。
図5は、文書分析支援装置100における解析処理に係る一連の処理を示すフローチャートである。形態素解析部121は、特許データベース200に保持される特許文献を一度も形態素解析していない場合(S10のY)、または辞書データ保持部185に保持される辞書データが更新された場合(S11のY)、特許データベース200に保持されるすべての特許文献の形態素解析を実行し、形態素情報保持部181に保持される形態素情報を更新する(S12)。係り受け解析部122は、すべての特許文献の係り受け解析を実行し、係り受け情報保持部182に保持される係り受け情報を更新する(S13)。
The operation of the document
FIG. 5 is a flowchart showing a series of processes related to the analysis process in the document
また、形態素解析部121は、特許データベース200に特許文献が追加された場合(S14のY)、または既存の特許文献が更新された場合(S15のY)、追加・更新された特許文献を形態素解析を実行し、形態素情報を更新する(S16)。係り受け解析部122は、更新された特許文献の係り受け解析を実行し、係り受け情報を更新する(S17)。 In addition, when a patent document is added to the patent database 200 (Y in S14) or when an existing patent document is updated (Y in S15), the morpheme analysis unit 121 displays the added / updated patent document as a morpheme. The analysis is executed and the morpheme information is updated (S16). The dependency analysis unit 122 executes dependency analysis of the updated patent document and updates dependency information (S17).
図6は、文書分析支援装置100における抽出・集計処理に係る一連の処理を示すフローチャートである。特許文献検索部130は、特許文献を検索する(S20)。解析情報抽出部150は、検索結果に含まれる特許文献についての解析結果(形態素情報および係り受け情報)を抽出する(S21)。集計部160は、解析結果を任意の条件で集計する(S22)。表示制御部170は、集計結果等をユーザ端末300に表示させる(S23)。
FIG. 6 is a flowchart showing a series of processing relating to extraction / aggregation processing in the document
本実施の形態に係る文書分析支援装置100によれば、特許データベース200が保持するすべての特許文献についての解析結果が保持される。そのため、分析する際に解析を実行する必要はなく、予め保持されている解析結果から所望の解析結果を抽出し、集計等すればよい。これにより、比較的短時間で特許文献を分析することが可能となる。
According to the document
(第2の実施の形態)
第1の実施の形態に係る文書分析支援装置と第2の実施の形態に係る文書分析支援装置との主な違いは、特許データベース200が保持する特許文献が追加・更新された場合の各部材の動作である。
第2の実施の形態に係る文書分析支援装置100は、検索条件保持部をさらに備える点を除き、図2と同様の構成を有する。以下、第1の実施の形態との相違点を中心に説明する。
(Second Embodiment)
The main difference between the document analysis support apparatus according to the first embodiment and the document analysis support apparatus according to the second embodiment is that each member when the patent document held in the
The document
検索条件保持部は、検索条件取得部131が受け付けた検索条件を保持する。
特許文献検索部130は、特許データベース200が保持する特許文献が更新された場合、検索条件保持部が保持する検索条件に基づいて更新された特許文献を検索する。具体的には、まず検索条件取得部131は、検索条件保持部から検索条件を取得する。検索式生成部132は、この検索条件に基づき検索式21を生成する。検索実行部133は、検索式生成部132によって生成された検索式21に基づき特許データベース200を検索する。このとき検索実行部133は、特許文献の更新日時を参照することにより、前回の検索後に新たに追加された特許文献および前回の検索後に更新された特許文献を検索する。なお、これらの処理は、特許データベース200の定期更新後に実行されるようスケジューリングされてもよい。
The search condition holding unit holds the search conditions received by the search condition acquisition unit 131.
When the patent document held by the
特許文献リスト取得部140は、検索実行部133による検索の結果得られた特許文献のリストを取得する。このリストを特許文献リスト22’とする。つまり、特許文献リスト22’には、追加・更新された特許文献の文献IDが含まれる。形態素情報抽出部151は、特許文献リスト22’に含まれる文献ID24が特定する特許文献の形態素情報を抽出し、抽出形態素データ保持部183を更新する。なお、形態素解析部121による更新された特許文献の形態素解析が未完了の場合、形態素情報抽出部151はその完了を待ってから形態素情報を抽出する。
The patent document
係り受け情報抽出部152は、特許文献リスト22’に含まれる文献ID24が特定する特許文献の係り受け情報を抽出し、抽出係り受けデータ保持部184を更新する。なお、係り受け解析部122による更新された特許文献の係り受け解析が未完了の場合、係り受け情報抽出部152はその完了を待ってから係り受け情報を抽出する。
The dependency
集計部160は、更新された抽出形態素データ保持部183および抽出係り受けデータ保持部184に保持されるデータで再度集計処理を実施する。特許データベース200が保持する特許文献が追加・更新された場合、特許文献検索部130から解析情報抽出部150までの一連の処理を自動で実施する。
The
本実施の形態に係る文書分析支援システム10によれば、第1の実施の形態と同様の作用効果を奏することができる。加えて、本実施の形態に係る文書分析支援システム10によれば、特許データベース200が更新されるたびに、予め登録した検索条件に基づいて自動で検索を行い、分析対象の形態素解析情報および係り受け情報と、集計結果とを更新する。これにより、常に最新の分析結果を得ることができる。
According to the document
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下変形例を示す。 The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there. A modification is shown below.
第1の変形例を説明する。第1、2の実施の形態では、文書データが特許文献である場合について説明したが、これに限らない。例えば、文書データは、学術論文、新聞、雑誌、その他の文書であってもよい。 A first modification will be described. In the first and second embodiments, the case where the document data is a patent document has been described, but the present invention is not limited to this. For example, the document data may be academic papers, newspapers, magazines, and other documents.
第2の変形例を説明する。第1、2の実施の形態では、形態素情報保持部181に保持される形態素情報が、1形態素ごとに1レコードとなるよう構成される場合について説明したが、これに限られない。例えば、形態素情報は、1特許文献ごとに1レコードとなるよう構成されてもよい。具体的には、例えば図3の各レコードの各フィールドのデータを「特開2003−0001 発明の名称 1 1 テープ 2 印字 特開2003−0001 発明の名称 1 2 印字 3 装置 ・・・」のようにスペース区切りでつなげ、1特許文献ごとに1レコードとなるよう構成してもよい。これにより、形態素情報のレコード数が減少するため、これを検索するときの検索スピードが向上する。その結果、形態素情報抽出部151が形態素情報保持部181から分析対象の特許文献の形態素情報を抽出するときのスピードが向上する。
係り受け情報保持部182に保持される係り受け情報についても同様である。
A second modification will be described. In the first and second embodiments, the case has been described in which the morpheme information held in the morpheme
The same applies to the dependency information held in the dependency
第3の変形例を説明する。第1、2の実施の形態では言及していないが、文書分析支援装置100は、集計部160が、どのような項目でグループ化しつつ解析結果を集計するかが設定されたテンプレートを保持するテンプレート保持部をさらに備えてもよい。一例としては、テンプレートには、「形態素集計部161が年代別、出願人別でグループ化しつつ形態素情報の各形態素の出現頻度を集計し、係り受け集計部162が出願人別でグループ化しつつ形態素「課題」と係り受け関係にある形態素の出現頻度を集計する」ことが設定される。テンプレート保持部はこうしたテンプレートを複数保持してもよく、ユーザは所望のテンプレートを選択すればよい。これにより、どの項目でグループ化しつつ集計するかをユーザが設定する必要がなくなり、ユーザの負担が軽減される。
A third modification will be described. Although not mentioned in the first and second embodiments, the document
第4の変形例を説明する。第1、2の実施の形態では、文書分析支援装置100が、解析部120と、特許文献検索部130と、特許文献リスト取得部140と、解析情報抽出部150と、集計部160と、表示制御部170と、形態素情報保持部181と、係り受け情報保持部182と、抽出形態素データ保持部183と、抽出係り受けデータ保持部184と、辞書データ保持部185と、形態素集計データ保持部186と、係り受け集計データ保持部187と、を備える場合について説明したが、これに限られず、文書分析支援装置100の機能の一部を他の装置に移してもよい。例えば、文書分析支援装置とは別に特許文献検索装置を設け、これに特許文献検索部130の機能を持たせてもよい。また例えば、文書分析支援装置とは別に解析装置を設け、これに解析部120の機能を持たせてもよい。
A fourth modification will be described. In the first and second embodiments, the document
上述した実施の形態および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施の形態および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。 Any combination of the above-described embodiments and modifications is also useful as an embodiment of the present invention. The new embodiment generated by the combination has the effects of the combined embodiment and the modified examples. In addition, it should be understood by those skilled in the art that the functions to be fulfilled by the constituent elements described in the claims are realized by the individual constituent elements shown in the embodiments and the modified examples or by their linkage. .
100 文書分析支援装置、 120 解析部、 121 形態素解析部、 122 係り受け解析部、 130 特許文献検索部、 131 検索条件取得部、 132 検索式生成部、 133 検索実行部、 140 特許文献リスト取得部、 150 解析情報抽出部、 151 形態素情報抽出部、 152 係り受け情報抽出部、 160 集計部、 161 形態素集計部、 162 係り受け集計部、 170 表示制御部、 181 形態素情報保持部、 182 係り受け情報保持部、 183 抽出形態素データ保持部、 184 抽出係り受けデータ保持部、 185 辞書データ保持部、 200 特許データベース、 300 ユーザ端末。
100 document analysis support device, 120 analysis unit, 121 morpheme analysis unit, 122 dependency analysis unit, 130 patent document search unit, 131 search condition acquisition unit, 132 search expression generation unit, 133 search execution unit, 140 patent document
Claims (5)
前記解析部により生成された形態素情報を保持する形態素情報保持部と、
文書データを検索するための検索条件が入力され、当該検索条件のもとで文書データを検索する検索部と、
前記データベースに保持される文書データのうち、前記検索部による検索の結果得られた文書データのリストを取得するリストを取得するリスト取得部と、
前記形態素情報保持部から、前記リストに含まれる文書データの形態素情報を抽出する解析情報抽出部と、
前記解析情報抽出部により抽出された形態素情報を集計する集計部と、を備え、
前記解析部が前記データベースに保持される文書データを形態素解析することで、前記形態素情報保持部は本システムが対象とするすべての文書データの形態素情報を保持し、
前記データベースに保持される文書データが更新された場合、前記解析部は、更新された文書データの形態素解析を行い、前記形態素情報を更新し、
前記集計部は、形態素情報に含まれる各形態素をテンプレートで指定された項目でグループ化し、その出現頻度を集計することを特徴とする文書分析支援システム。 An analysis unit that performs morphological analysis on a plurality of document data held in a database, and generates morpheme information obtained by dividing each of the plurality of document data into morphemes;
A morpheme information holding unit for holding morpheme information generated by the analysis unit ;
A search condition for searching for document data is input, and a search unit for searching for document data under the search condition;
A list acquisition unit for acquiring a list for acquiring a list of document data obtained as a result of the search by the search unit , among the document data held in the database;
An analysis information extraction unit that extracts morpheme information of document data included in the list from the morpheme information holding unit;
A totaling unit that totalizes the morpheme information extracted by the analysis information extraction unit ,
By the morphological analysis of the document data held in the database by the analysis unit, the morpheme information holding unit holds morpheme information of all document data targeted by the system,
When the document data held in the database is updated, the analysis unit performs a morphological analysis of the updated document data, updates the morpheme information,
The document collection support system , wherein the counting unit groups each morpheme included in the morpheme information by an item designated by the template, and totals the appearance frequency .
前記解析部により生成された係り受け情報を保持する係り受け情報保持部をさらに備え、
前記解析情報抽出部は、前記係り受け情報保持部から、前記リストに含まれる文書データの係り受け情報を抽出することを特徴とする請求項1に記載の文書分析支援システム。 The analysis unit further performs dependency analysis for generating dependency information between morphemes included in the morpheme information, and when the document data held in the database is updated, dependency analysis of the updated document data is performed. To update the dependency information,
A dependency information holding unit for holding dependency information generated by the analysis unit ;
The document analysis support system according to claim 1, wherein the analysis information extraction unit extracts dependency information of document data included in the list from the dependency information holding unit.
前記辞書データが更新された場合、前記解析部は、前記データベースに保持される複数の文書データに対して形態素解析および係り受け解析を行い、前記形態素情報および前記係り受け情報を更新することを特徴とする請求項2に記載の文書分析支援システム。 Further comprising a dictionary data storage unit storing the dictionary data to be used for morphological analysis by pre-Symbol analyzer,
When the dictionary data is updated, the analysis unit performs morphological analysis and dependency analysis on a plurality of document data held in the database, and updates the morpheme information and the dependency information. The document analysis support system according to claim 2 .
前記検索部は、前記データベースに保持される文書データが更新された場合、更新された文書データのうち、前記検索条件保持部に保持される検索条件に合致する文書データを検索することを特徴とする請求項3に記載の文書分析支援システム。 A search condition holding unit for holding a search condition for searching for document data;
When the document data held in the database is updated, the search unit searches the updated document data for document data that matches a search condition held in the search condition holding unit. The document analysis support system according to claim 3.
生成された形態素情報を保持する保持機能と、
文書データを検索するための検索条件が入力され、当該検索条件のもとで文書データを検索する検索機能と、
前記データベースに保持される文書データのうち、検索の結果得られた文書データのリストを取得するリスト取得機能と、
前記リストに含まれる文書データの形態素情報を抽出する解析情報抽出機能と、
抽出された形態素情報を集計する集計機能と、をコンピュータに実現させ、
前記解析機能が前記データベースに保持される文書データを形態素解析することで、前記保持機能は本システムが対象とするすべての文書データの形態素情報を保持し、
前記データベースに保持される文書データが更新された場合、前記解析機能は、更新された文書データの形態素解析を行い、前記形態素情報を更新し、
前記集計機能は、形態素情報に含まれる各形態素をテンプレートで指定された項目でグループ化し、その出現頻度を集計することを特徴とするコンピュータプログラム。 An analysis function for performing morphological analysis on a plurality of document data stored in a database and generating morpheme information obtained by dividing each of the plurality of document data into morphemes;
A holding function for holding the generated morpheme information;
A search function for searching for document data is input, and a search function for searching for document data under the search condition;
A list acquisition function for acquiring a list of document data obtained as a result of search among the document data held in the database;
An analysis information extraction function for extracting morpheme information of document data included in the list;
The computer implements a tabulation function that tabulates the extracted morpheme information ,
By the morphological analysis of the document data held in the database by the analysis function, the holding function holds morpheme information of all document data targeted by the system,
When the document data stored in the database is updated, the analysis function performs morphological analysis of the updated document data, updates the morpheme information,
The said totaling function groups each morpheme contained in morpheme information by the item designated with the template, and totalizes the appearance frequency, The computer program characterized by the above-mentioned .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013227045A JP6253352B2 (en) | 2013-10-31 | 2013-10-31 | Document analysis support system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013227045A JP6253352B2 (en) | 2013-10-31 | 2013-10-31 | Document analysis support system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015088022A JP2015088022A (en) | 2015-05-07 |
JP6253352B2 true JP6253352B2 (en) | 2017-12-27 |
Family
ID=53050726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013227045A Active JP6253352B2 (en) | 2013-10-31 | 2013-10-31 | Document analysis support system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6253352B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11120190A (en) * | 1997-10-15 | 1999-04-30 | Hitachi Ltd | Reservation retrieval method |
JP2002032374A (en) * | 2000-07-18 | 2002-01-31 | Hitachi Ltd | Information-extracting method and recording medium |
JP2003173339A (en) * | 2001-12-06 | 2003-06-20 | Toshiba Corp | Document retrieval device, updating method of document retrieval device, and storage medium |
JP4992243B2 (en) * | 2006-01-31 | 2012-08-08 | 富士通株式会社 | Information element processing program, information element processing method, and information element processing apparatus |
-
2013
- 2013-10-31 JP JP2013227045A patent/JP6253352B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015088022A (en) | 2015-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stenetorp et al. | BioNLP shared task 2011: Supporting resources | |
JP2014533407A5 (en) | ||
US20150213066A1 (en) | System and method for creating data models from complex raw log files | |
JP5296014B2 (en) | Search device, method and program | |
Pal et al. | Summary generation using natural language processing techniques and cosine similarity | |
JP2011248762A (en) | Classification device, content retrieval system, content classification method, content retrieval method, and program | |
Oliveira et al. | A distributed system for SearchOnMath based on the Microsoft BizSpark program | |
JP2003288348A (en) | Library book stock retrieval system | |
Odijk et al. | Extensions to the GrETEL treebank query application | |
JP6253352B2 (en) | Document analysis support system | |
CN108614821B (en) | Geological data interconnection and mutual-checking system | |
Kumpoh | Conversion to Islam: The case of the Dusun ethnic group in Brunei Darussalam | |
WO2015072055A1 (en) | Extracting and mining of quote data across multiple languages | |
US20180349358A1 (en) | Non-transitory computer-readable storage medium, information processing device, and information generation method | |
Sworna et al. | IRP2API: Automated Mapping of Cyber Security Incident Response Plan to Security Tools’ APIs | |
JP2015103101A (en) | Text summarization device, method, and program | |
US10360243B2 (en) | Storage medium, information presentation method, and information presentation apparatus | |
JP2020067700A (en) | Information collecting method, information collecting processing device, and information collecting program | |
JP2007241635A (en) | Document retrieval device, information processor, retrieval result output method, retrieval result display method and program | |
Bougar et al. | Stemming algorithm for arabic text using a parallel data processing | |
Singh et al. | Framework for Faster Index Search | |
Manna et al. | Information retrieval-based question answering system on foods and recipes | |
JP5941345B2 (en) | Character information analysis method, information analysis apparatus, and program | |
Blair et al. | Virginia Tech, Blacksburg, VA 24061 | |
JP2016122263A (en) | Information processing apparatus, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160609 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6253352 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |