JP7445891B2 - 文書分類方法、文書分類装置及びプログラム - Google Patents
文書分類方法、文書分類装置及びプログラム Download PDFInfo
- Publication number
- JP7445891B2 JP7445891B2 JP2020102007A JP2020102007A JP7445891B2 JP 7445891 B2 JP7445891 B2 JP 7445891B2 JP 2020102007 A JP2020102007 A JP 2020102007A JP 2020102007 A JP2020102007 A JP 2020102007A JP 7445891 B2 JP7445891 B2 JP 7445891B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- cases
- predetermined number
- words
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 239000000284 extract Substances 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 15
- 238000004590 computer program Methods 0.000 description 14
- 238000003058 natural language processing Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
近年、例えば技術報告書または論文などの学術文献のように、電子化された大量の文書が蓄積されるようになっている。このため、このような文書を、AI(Artificial Intelligence)などを用いて、内容に応じたカテゴリに自動的に分類させることが期待されている。
以下では、図面を参照しながら、実施の形態1における文書分類装置等の説明を行う。
図1は、実施の形態1に係る文書分類装置10の一例を示すブロック図である。
データベース11は、意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含む。
図3は、実施の形態1に係る文書分類装置10の機能構成例を示すブロック図である。
入力部101には、カテゴリを分類したい文書つまり分類対象の文書が入力される。本実施の形態では、入力部101には、分類対象である第1文書が入力される。ここで、入力部101に入力される第1文書は、上述した技術報告書または論文などの学術文献に限らず、小説などでもよい。つまり、入力部101に入力される第1文書は、そこに含まれる文章からカテゴリ分類が可能で、かつ、当該文章を、意味で分類した複数の項目に分けることができればよい。
メモリ102は、記憶媒体の一例であり、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成される。本実施の形態では、メモリ102は、入力部101に入力された第1文書を記憶する。
第1特徴語抽出部103は、処理負荷の少ない自然言語処理を行うことで、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出する。ここで、第1特徴語は、第1文書に含まれる第1文章情報に示される第1文章を構成し、かつ、当該第1文書の特徴となるフレーズまたは単語である。
第1事例抽出部104は、データベース11から、第1特徴語抽出部103により抽出された1以上の第1特徴語に基づいて、第1文書に類似する所定数の第1事例を抽出する。
第2特徴語抽出部105は、第1事例抽出部104により抽出された所定数の第1事例それぞれの第2文章情報から、所定数の第1事例それぞれの1以上の第2特徴語を抽出する。
一致度算出部106は、第2特徴語抽出部105が抽出した1以上の第2特徴語に基づいて、所定数の第1事例それぞれと、第1文書との一致度を算出する。
カテゴリ決定部107は、一致度算出部106が算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、第1文書のカテゴリに決定することにより、第1文書を少なくとも1つのカテゴリに分類する。
出力部108は、カテゴリ決定部107により決定された第1文書のカテゴリを、分類結果すなわち分類した第1文書のカテゴリとして出力する。
次に、本実施の形態に係る文書分類装置10のハードウェア構成について、図7を用いて説明する。図7は、本実施の形態に係る文書分類装置10の機能をソフトウェアにより実現するコンピュータ1000のハードウェア構成の一例を示す図である。
続いて、上述のように構成された文書分類装置10の動作の一例について以下説明する。
以上のようにして、文書分類装置10は、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を精度よく抽出しなくても、既に精度よく分類された事例が蓄積されたデータベース11を利用することで、文書のカテゴリを精度よく分類できる。
実施の形態1では、データベース11を利用して、分類対象の文書を少なくとも1つのカテゴリに分類する文書分類装置10について説明したが、これに限らない。文書分類装置は、データベース11を利用して、分類対象の文書のカテゴリを分類するとともに、当該文書に含まれる文章をその内容に応じて項目ごと分類して、整理かつ要約した文である要点を作成してもよい。この場合の文書分類装置20等について、実施の形態2として説明する。なお、以下では、実施の形態1と異なるところを中心に説明する。
図9は、実施の形態2に係る文書分類装置20の機能構成例を示すブロック図である。図9に示す文書分類装置20は、実施の形態1に係る文書分類装置10に対して、文章範囲特定部209と、要点作成部210と、格納処理部211との構成が追加されている点で異なる。
文章範囲特定部209は、一致度算出部106が算出した一致度のうち、最も大きい一致度の第1事例における1以上の項目ごとの第2特徴語を用いて、第1文書に含まれる第1文章情報を検索する。文章範囲特定部209は、検索することで得た、第1文章情報における1以上の項目ごとの第2特徴語の分布に基づき、当該最も大きい一致度の第1事例における1以上の項目に対応する、第1文書における1以上の項目ごとの内容を示す文章範囲を特定する。より具体的には、文章範囲特定部209は、第1文章情報を検索することで、第1文章情報における1以上の項目ごとの第2特徴語の分布であって1以上の項目ごとの第2特徴語の近接度、密度及び重みのうち少なくとも1つが所定値以上となる分布を得る。そして、文章範囲特定部209は、第1文章情報を検索することで得た当該分布に含まれる第1文章情報の範囲を、項目ごとの内容を示す文章範囲として特定する。
要点作成部210は、文章範囲特定部209により特定された文章範囲に含まれる第1文章情報から、第1文書における1以上の項目ごとに当該項目の内容の要点を作成する。
格納処理部211は、第1文書を、要点作成部210が作成した要点と、分類した少なくとも1つのカテゴリとを含む新たな第1事例として、データベース11に格納する。
以上のようにして、文書分類装置20は、既に精度よく分類された事例が蓄積されたデータベース11を利用することで、第1文書のカテゴリを分類することができ、かつ、第1文書の文章を項目別に分類整理して項目別の要点を作成することができる。
以上、実施の形態において本開示の文書分類装置、文書分類方法及びプログラムについて説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
11 データベース
101 入力部
102 メモリ
103 第1特徴語抽出部
104 第1事例抽出部
105 第2特徴語抽出部
106 一致度算出部
107 カテゴリ決定部
108 出力部
209 文章範囲特定部
210 要点作成部
211 格納処理部
Claims (10)
- 文書を少なくとも1つのカテゴリに分類することをコンピュータが行う文書分類方法であって、
分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、
意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、
前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、
抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、
算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類する、
文書分類方法。 - 前記1以上の第1特徴語を抽出する際、
前記第1文章情報を形態素分析することで、前記第1文章情報に含まれる複数の単語を抽出し、
前記複数の単語の係り受け解析をすることで得た前記複数の単語の出現頻度及び共起関係からスコアを算出し、
算出した前記スコアが閾値以上の1以上の単語を、前記1以上の第1特徴語と決定することで、前記第1文章情報から前記1以上の第1特徴語を抽出する、
請求項1に記載の文書分類方法。 - 前記所定数の第1事例を抽出する際、
前記データベースに含まれる複数の事例それぞれの前記第2文章情報と、抽出された前記1以上の第1特徴語とを比較して、前記第2文章情報に含まれる単語と、前記1以上の第1特徴語との類似度を算出し、
前記類似度が最上位の第1事例を含み、前記最上位から前記類似度が大きい順に前記所定数の第1事例を抽出する、
請求項1または2に記載の文書分類方法。 - 前記1以上の第2特徴語を抽出する際、
前記所定数の第1事例それぞれの前記1以上の項目ごとに含まれる第2文章情報から、前記所定数の第1事例それぞれにおける前記1以上の項目ごとの第2特徴語を、前記1以上の第2特徴語として抽出する、
請求項1~3のいずれか1項に記載の文書分類方法。 - 前記一致度を算出する際、
前記所定数の第1事例それぞれにおける前記1以上の項目ごとの第2特徴語と、前記第1文書に含まれる前記第1文章情報とを比較し、
前記所定数の第1事例それぞれにおける前記1以上の項目ごとに、前記第1文章情報との一致度を示す一致度スコアを算出し、前記所定数の第1事例それぞれにおいて前記一致度スコアを総合して得た総合スコアを、前記所定数の第1事例それぞれと前記第1文書との一致度として算出する、
請求項4に記載の文書分類方法。 - 前記文書分類方法は、さらに、
前記最も大きい一致度の第1事例における前記1以上の項目ごとの第2特徴語を用いて、前記第1文書に含まれる第1文章情報を検索し、前記第1文章情報における前記1以上の項目ごとの第2特徴語の分布に基づき、前記最も大きい一致度の第1事例における前記1以上の項目に対応する前記第1文書における1以上の項目ごとの内容を示す文章範囲を特定し、
特定された前記文章範囲に含まれる前記第1文章情報から、前記第1文書における1以上の項目ごとに当該項目の内容の要点を作成する、
請求項1~5のいずれか1項に記載の文書分類方法。 - 前記文書分類方法は、さらに、
前記第1文書を、作成した前記要点と、分類した前記少なくとも1つのカテゴリとを含む新たな第1事例として、前記データベースに格納する、
請求項6に記載の文書分類方法。 - 前記文章範囲を特定する際、
前記第1文章情報を検索することで得た、前記第1文章情報における前記1以上の項目ごとの第2特徴語の分布であって前記1以上の項目ごとの第2特徴語の近接度、密度及び重みのうち少なくとも1つが所定値以上となる分布に含まれる前記第1文章情報の範囲を、前記項目ごとの内容を示す文章範囲として特定する、
請求項6または7に記載の文書分類方法。 - 文書を少なくとも1つのカテゴリに分類する文書分類装置であって、
プロセッサと、
メモリと、を備え、
前記プロセッサは、前記メモリに記録されたプログラムを用いて、
分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、
意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、
前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、
抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、
算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類する、
文書分類装置。 - 文書を少なくとも1つのカテゴリに分類する文書分類方法をコンピュータに実行させるためのプログラムであって、
分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、
意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、
前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、
抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、
算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類することを、
コンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020102007A JP7445891B2 (ja) | 2020-06-12 | 2020-06-12 | 文書分類方法、文書分類装置及びプログラム |
US17/331,690 US11797592B2 (en) | 2020-06-12 | 2021-05-27 | Document classification method, document classifier, and recording medium |
CN202110621773.1A CN113807381A (zh) | 2020-06-12 | 2021-06-03 | 文件分类方法、文件分类装置以及记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020102007A JP7445891B2 (ja) | 2020-06-12 | 2020-06-12 | 文書分類方法、文書分類装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021196786A JP2021196786A (ja) | 2021-12-27 |
JP7445891B2 true JP7445891B2 (ja) | 2024-03-08 |
Family
ID=78825537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020102007A Active JP7445891B2 (ja) | 2020-06-12 | 2020-06-12 | 文書分類方法、文書分類装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11797592B2 (ja) |
JP (1) | JP7445891B2 (ja) |
CN (1) | CN113807381A (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000276487A (ja) | 1999-03-26 | 2000-10-06 | Mitsubishi Electric Corp | 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体 |
JP2004206308A (ja) | 2002-12-24 | 2004-07-22 | Matsushita Electric Works Ltd | 設計支援システム |
JP2008269375A (ja) | 2007-04-23 | 2008-11-06 | Hidetsugu Nanba | 情報処理装置、情報処理方法、及びプログラム |
JP2017054202A (ja) | 2015-09-07 | 2017-03-16 | パナソニックIpマネジメント株式会社 | 情報処理装置、不具合原因特定方法及びプログラム |
JP2017215803A (ja) | 2016-05-31 | 2017-12-07 | 株式会社Nttドコモ | 特徴語抽出装置 |
JP2018073354A (ja) | 2016-11-04 | 2018-05-10 | Kddi株式会社 | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
JP2019125124A (ja) | 2018-01-16 | 2019-07-25 | ヤフー株式会社 | 抽出装置、抽出方法、及び抽出プログラム |
JP2020021455A (ja) | 2019-03-28 | 2020-02-06 | 株式会社AI Samurai | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3488063B2 (ja) | 1997-12-04 | 2004-01-19 | 株式会社エヌ・ティ・ティ・データ | 情報分類方法、装置及びシステム |
JP2006293767A (ja) | 2005-04-12 | 2006-10-26 | Nomura Research Institute Ltd | 文章分類装置、文章分類方法および分類辞書作成装置 |
JP5526199B2 (ja) | 2012-08-22 | 2014-06-18 | 株式会社東芝 | 文書分類装置および文書分類処理プログラム |
-
2020
- 2020-06-12 JP JP2020102007A patent/JP7445891B2/ja active Active
-
2021
- 2021-05-27 US US17/331,690 patent/US11797592B2/en active Active
- 2021-06-03 CN CN202110621773.1A patent/CN113807381A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000276487A (ja) | 1999-03-26 | 2000-10-06 | Mitsubishi Electric Corp | 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体 |
JP2004206308A (ja) | 2002-12-24 | 2004-07-22 | Matsushita Electric Works Ltd | 設計支援システム |
JP2008269375A (ja) | 2007-04-23 | 2008-11-06 | Hidetsugu Nanba | 情報処理装置、情報処理方法、及びプログラム |
JP2017054202A (ja) | 2015-09-07 | 2017-03-16 | パナソニックIpマネジメント株式会社 | 情報処理装置、不具合原因特定方法及びプログラム |
JP2017215803A (ja) | 2016-05-31 | 2017-12-07 | 株式会社Nttドコモ | 特徴語抽出装置 |
JP2018073354A (ja) | 2016-11-04 | 2018-05-10 | Kddi株式会社 | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
JP2019125124A (ja) | 2018-01-16 | 2019-07-25 | ヤフー株式会社 | 抽出装置、抽出方法、及び抽出プログラム |
JP2020021455A (ja) | 2019-03-28 | 2020-02-06 | 株式会社AI Samurai | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
Also Published As
Publication number | Publication date |
---|---|
US11797592B2 (en) | 2023-10-24 |
CN113807381A (zh) | 2021-12-17 |
JP2021196786A (ja) | 2021-12-27 |
US20210390297A1 (en) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saravanan et al. | Identification of rhetorical roles for segmentation and summarization of a legal judgment | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
JP2009514076A (ja) | テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム | |
JP2018045559A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
CN115374781A (zh) | 文本数据信息挖掘方法、装置、设备 | |
US20120316865A1 (en) | Information processing apparatus, information processing method, and program | |
US8862586B2 (en) | Document analysis system | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
JP7445891B2 (ja) | 文書分類方法、文書分類装置及びプログラム | |
Wei et al. | Finding related publications: extending the set of terms used to assess article similarity | |
CN111274483A (zh) | 关联推荐方法及关联推荐交互方法 | |
Pribán et al. | Towards Automatic Medical Report Classification in Czech. | |
Goumy et al. | Ecommerce Product Title Classification. | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
Gupta et al. | Comparative analysis of term extraction and selection techniques for query reformulation using prf | |
US11928427B2 (en) | Linguistic analysis of seed documents and peer groups | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
JP2021128620A (ja) | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム | |
WO2015125088A1 (en) | Document characterization method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230320 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240215 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7445891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |