JP2020181529A - 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム - Google Patents
調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム Download PDFInfo
- Publication number
- JP2020181529A JP2020181529A JP2019086100A JP2019086100A JP2020181529A JP 2020181529 A JP2020181529 A JP 2020181529A JP 2019086100 A JP2019086100 A JP 2019086100A JP 2019086100 A JP2019086100 A JP 2019086100A JP 2020181529 A JP2020181529 A JP 2020181529A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- support method
- investigation
- target
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000011835 investigation Methods 0.000 title claims abstract description 29
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 230000001537 neural effect Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 8
- 238000006243 chemical reaction Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 15
- 238000010276 construction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000004040 coloring Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
伝統的な言語理解モデルには、規則方式の言語理解モデルと統計方式の言語理解モデルの2種類があるが、規則方式の言語理解モデルでは、各ドメインに対する深い知識を持った者が、類義語判定や構文解析等の言語理解に必要なサブタスクの種類を考え、各サブタスクに対する必要な特徴量を設計するだけでなく、言語理解のための規則やアルゴリズムまで自ら考えなければならなかった。そのため、大規模で実用的なシステムを構築するのは困難であった。また、統計方式の言語理解モデルにおいては、サブタスクの種類を考え、特徴量を設計するのは人間であるが、言語理解のための規則は学習データから統計的機械学習の手法によって自動的に構築できる。しかしながら、各サブタスクに特化した学習データを別個に用意しなければならないため、実用上精度の高いモデルを作成することは、大変困難であった。
a) 任意の長さの文章を扱える。つまり可変長データを扱うことできる。
b) トークン(単語など)に出現順(時系列)を考慮する仕組みが利用できる。
c) 離れたトークン間にある長距離依存関係が扱える。
このような特徴を持つ既存の仕組みとして、CNN、RNN、位置埋め込み(positional embeddings)を用いたモデル等が考えられるが、ニューラル言語理解モデルにおいては、何れのモデルを用いることも可能である。例えば、CNN、RNN を使ったモデルについては、単純なニューラルネットワークでは扱いきれない、時系列データをうまく扱うことが出来る。CNN、RNNをエンコーダとして用いると、可変長トークン列を時系列として扱うことができる。これらのエンコーダとデコーダを組み合わせたモデルは、シーケンス・トゥー・シーケンスモデルと呼ばれ、主に機械翻訳等に用いられる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
図1は、調査支援システム100の全体構成を説明する図である。
同図において、調査支援システム100は、判定部101、および演算部102を備える。
判定部101は、請求項保持部11、文献保持部12、前処理部13、変換部14、および言語理解モデル15を備える。
演算部102は、入力部103、ランキング部104、相違点抽出部105、および表示制御部106を備える。演算部102に関しては、より詳しくは、後述の図7の調査支援システムを応用した文書検索システムの仕組みを用いることが可能である。
例えば、ランキング部104は、対象文に占める一致点の数(例えば、一致しているトークンの数)が多いほど、適格性の評価を高くする。
また例えば、ランキング部104は、対象文に占める一致点の割合(例えば、一致しているトークンの数を、前トークン数で割った値)が多いほど、適格性の評価を高くする。この割合には、文字数やトークン数などの割合の他に、対象文において複数の一致点が集中または分散する粗密の度合などを加味してもよい。
また例えば、ランキング部104は、一致点の評価値が高いほど、適格性の評価を高くする。例えば、一致点が示すトークンが専門分野の用語であるなど特殊性があって特徴的な用語であるほど、一致点の評価値を高くしてもよい。また、例えば、対象文の中の一致点の出現箇所が書式などから定まる重要箇所または基本箇所であるほど、一致点の評価値の重み付けを高くしてもよい。
さらに、これらの項目を評価関数などで組み合わせる、また他の評価をさらに加味するなどして、参照文の比較対象としての適格性を総合的に評価してもよい。
また、ランキング部104は、求めた適格性に基づいて、複数の参照文のランキングを行う。
なお、ランキング部104の適格性の評価やランキングなどの機能は、後述する結果保持部45、総合出力部46(図7参照)の機能と少なくとも一部重複するため、ランキング部104について、結果保持部45、総合出力部46と同様の機能については重複説明を省略する。また、結果保持部45、総合出力部46の機能の少なくとも一部を、ランキング部104の機能として、採用してもよい。
なお、相違点抽出部105の相違点を処理する機能は、後述するクエリ自動構築部44(図7参照)の機能と少なくとも一部重複するため、相違点抽出部105について、クエリ自動構築部44と同様の機能については重複説明を省略する。また、クエリ自動構築部44の機能の少なくとも一部を、相違点抽出部105の機能として、採用してもよい。
次に、言語理解モデル15について説明する。
続いて、言語理解モデル15の機械学習について説明する。
図3は、言語理解モデル15の機械学習を説明する図である。
このような機械学習により、言語理解モデル15のうち、アテンションを用いたBERT等のモデルにおいては、一致点と推定されるトークンの組み合わせに対して、対応するアテンションの位置に高い値を生成するようになる。
機械学習を済ませた言語理解モデル15の推定動作について説明する。
図4は、変換部14が、言語理解モデル15を使用して、入力対象トークン列INiを、出力対象トークン列OUTiに変換する例を示す図である。
続いて、画面インタフェースについて説明する。
同図において、入力領域31(対象文の表示領域)には、特許審査対象、または、特許無効調査対象の請求項が入力される。また、引用文献表示領域32(参照文の表示領域)には、現在選択している引用文献の少なくとも一部分が表示される。文献一覧表示領域33(複数の参照文の一覧表示領域)には、文献一覧が表示される。さらに、文書変換対象となる特許文献PDmの集合を作るために、キーワードや、IPC(国際特許分類)、FI等を入力するテキストボックスと、検索ボタンが存在していてもよい。
図7は、調査支援システム100を応用した文書検索システムを示す図である。
次に、図1に記載の調査支援システム100の具体的動作について説明する。
図9および図10は、調査支援システム100の動作を示す流れ図である。
以下、同図に示すステップ番号に沿って説明する。
上述した一連の動作により、調査支援方法が実行される。
以下、上述した実施例の効果について説明する。
なお、実施例では、特許審査や特許無効調査を支援する場合について特に説明した。しかしながら、本発明はこれに限定されない。文章間の一致点を判定する用途に広く適用することができる。例えば、論文やレポートの盗用問題や、文章の著作権問題などに対応して、対象文と似たものを検索するなどの用途に適用してもよい。
また、実施例の構成の一部について、他の構成を追加・削除・置換することが可能である。
Claims (14)
- コンピュータシステムが文献の調査を支援するための方法であって、
対象文と参照文との一致点に関する情報を取得する入力ステップと、
前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御ステップと
を備えたことを特徴とする調査支援方法。 - 請求項1に記載の調査支援方法において、
トークンごとに一致点を判定する言語理解モデルに対して前記対象文および前記参照文を入力し、前記一致点に関する情報を求める判定ステップを備える
ことを特徴とする調査支援方法。 - 請求項2に記載の調査支援方法において、
前記言語理解モデルは、ニューラル言語理解モデルであることを特徴とする調査支援方法。 - 請求項2〜3の何れか一項に記載の調査支援方法において、
前記対象文に占める前記一致点の数、割合、または一致点に基づいた評価値に応じて、前記対象文に対する前記参照文の主たる比較対象(以下「主引例」という)としての適格性を評価するランキングステップを備える
ことを特徴とする調査支援方法。 - 請求項4に記載の調査支援方法において、
前記ランキングステップは、
前記一致点について前記対象文の中の出現箇所に応じた重み付けを行って前記評価値を求め、前記評価値に応じて前記参照文の前記主引例としての前記適格性を評価する
ことを特徴とする調査支援方法。 - 請求項4〜5のいずれか一項に記載の調査支援方法において、
前記表示制御ステップは、
複数の前記参照文について、前記主引例としての前記適格性のランキング順位を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
ことを特徴とする調査支援方法。 - 請求項5〜6のいずれか一項に記載の調査支援方法において、
前記適格性に基づいて前記参照文の中から選択された前記主引例に基づいて、前記対象文と前記主引例の前記一致点を前記対象文から除くことにより、相違点を求める相違点抽出ステップを備える
ことを特徴とする調査支援方法。 - 請求項7に記載の調査支援方法において、
前記相違点抽出ステップは、
前記対象文と前記主引例との前記一致点を前記対象文から除いた結果、残ったトークンに基づいて文節または文章などの言語単位を前記対象文から抽出して、前記相違点とする
ことを特徴とする調査支援方法。 - 請求項7〜8のいずれか一項に記載の調査支援方法において、
前記判定ステップは、
前記相違点の一部または全部と一致する従たる比較対象(以下「副引例」という)を検索する
ことを特徴とする調査支援方法。 - 請求項9に記載の調査支援方法において、
前記相違点抽出ステップは、
前記相違点に対して、前記主引例から抽出した課題、技術分野、機能および作用の少なくとも1つの論理付け要素を追加し、
前記判定ステップは、
前記主引例の前記論理付け要素と前記一致点を有する前記副引例を検索する
ことを特徴とする調査支援方法。 - 請求項9〜10のいずれか一項に記載の調査支援方法において、
前記相違点抽出ステップは、
前記相違点と前記副引例との一致点を、前記相違点から除き、
前記判定ステップは、
残った前記相違点について、さらに次の副引例の検索を行い、
前記相違点抽出ステップと、前記判定ステップとを繰り返す
ことを特徴とする調査支援方法。 - 請求項9〜11のいずれか一項に記載の調査支援方法において、
前記表示制御ステップは、
前記副引例と、前記相違点との対応関係を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする
ことを特徴とする調査支援方法。 - コンピュータに、請求項1〜12のいずれか一項に記載の前記調査支援方法を実行させる
ことを特徴とする調査支援用コンピュータプログラム。 - 文献の調査を支援するための調査支援システムであって、
対象文と参照文との一致点に関する情報を取得する入力部と、
前記一致点を判別可能にする画面処理を加えた表示画面を生成し、前記表示画面を表示可能にする表示制御部と
を備えたことを特徴とする調査支援システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019086100A JP7348746B2 (ja) | 2019-04-26 | 2019-04-26 | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019086100A JP7348746B2 (ja) | 2019-04-26 | 2019-04-26 | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020181529A true JP2020181529A (ja) | 2020-11-05 |
JP7348746B2 JP7348746B2 (ja) | 2023-09-21 |
Family
ID=73024779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019086100A Active JP7348746B2 (ja) | 2019-04-26 | 2019-04-26 | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7348746B2 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112949A (ja) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体 |
JP2005258624A (ja) * | 2004-03-10 | 2005-09-22 | Fuji Xerox Co Ltd | 言語処理装置、言語処理方法およびプログラム |
JP2005258831A (ja) * | 2004-03-11 | 2005-09-22 | Patolis Corp | 類似文書検索方法 |
JP2008015774A (ja) * | 2006-07-05 | 2008-01-24 | Nagaoka Univ Of Technology | 模倣文書検出システム及びプログラム |
JP2012073877A (ja) * | 2010-09-29 | 2012-04-12 | Mitsubishi Space Software Kk | 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法 |
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
WO2018131259A1 (ja) * | 2017-01-11 | 2018-07-19 | パナソニックIpマネジメント株式会社 | 文章評価装置、及び文章評価方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002175003A (ja) | 2000-12-08 | 2002-06-21 | Tdk Corp | 発音学習システム |
-
2019
- 2019-04-26 JP JP2019086100A patent/JP7348746B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112949A (ja) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体 |
JP2005258624A (ja) * | 2004-03-10 | 2005-09-22 | Fuji Xerox Co Ltd | 言語処理装置、言語処理方法およびプログラム |
JP2005258831A (ja) * | 2004-03-11 | 2005-09-22 | Patolis Corp | 類似文書検索方法 |
JP2008015774A (ja) * | 2006-07-05 | 2008-01-24 | Nagaoka Univ Of Technology | 模倣文書検出システム及びプログラム |
JP2012073877A (ja) * | 2010-09-29 | 2012-04-12 | Mitsubishi Space Software Kk | 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法 |
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
WO2018131259A1 (ja) * | 2017-01-11 | 2018-07-19 | パナソニックIpマネジメント株式会社 | 文章評価装置、及び文章評価方法 |
Non-Patent Citations (2)
Title |
---|
深谷 亮: "単語の頻度統計を用いた文章の類似性の定量化", 電子情報通信学会論文誌, vol. 第J87-D-II巻, 第2号, JPN6023012889, 1 February 2004 (2004-02-01), pages 661 - 672, ISSN: 0005026720 * |
田辺 千夏: "ビッグデータ時代における特許情報調査への人工知能の活用", 情報の科学と技術, vol. 第67巻, 第7号, JPN6023012888, 1 July 2017 (2017-07-01), pages 372 - 376, ISSN: 0005026719 * |
Also Published As
Publication number | Publication date |
---|---|
JP7348746B2 (ja) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
US10140333B2 (en) | Trusted query system and method | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
US7987416B2 (en) | Systems and methods for modular information extraction | |
CN110321432A (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
US20080052262A1 (en) | Method for personalized named entity recognition | |
US20150081277A1 (en) | System and Method for Automatically Classifying Text using Discourse Analysis | |
US20040163043A1 (en) | System method and computer program product for obtaining structured data from text | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
JPH08255172A (ja) | 文書検索システム | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
Haq et al. | Urdu named entity recognition system using deep learning approaches | |
CN114896387A (zh) | 军事情报分析可视化方法、装置以及计算机可读存储介质 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JPH0844771A (ja) | 情報検索装置 | |
JP7167997B2 (ja) | 文献検索方法および文献検索システム | |
Khan et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification. | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
JP7348746B2 (ja) | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7348746 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |