JP6583899B1 - コンピュータ、データ要素提示方法、及びプログラム。 - Google Patents
コンピュータ、データ要素提示方法、及びプログラム。 Download PDFInfo
- Publication number
- JP6583899B1 JP6583899B1 JP2018189371A JP2018189371A JP6583899B1 JP 6583899 B1 JP6583899 B1 JP 6583899B1 JP 2018189371 A JP2018189371 A JP 2018189371A JP 2018189371 A JP2018189371 A JP 2018189371A JP 6583899 B1 JP6583899 B1 JP 6583899B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- occurrence
- data element
- computer
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 244
- 230000015654 memory Effects 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 31
- 239000000284 extract Substances 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 abstract description 9
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 28
- 238000012216 screening Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000011835 investigation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明の一実施形態に係るコンピュータ1の構成について、図1を参照して説明する。図1は、コンピュータ1の構成を示すブロック図である。
次に、コンピュータ1が実施するデータ要素提示方法S1について、図2を参照して説明する。図2は、データ要素提示方法S1の流れを示すフローチャートである。
データ要素提示方法S1の具体例について、図3を参照して説明する。ここでは、記憶処理S10にて5つの文章データDoc_1〜Doc_5からなるデータ群Dがメモリ11に記憶された場合に、”A社”というキーワード(キー要素)を補完する形態素(データ要素)のリストを生成する方法を説明する。
本実施形態においては、データ要素提示方法S1を実施するためにコンピュータ1が参照するデータが、データ要素の列であることを仮定した。この仮定の下、本実施形態においては、2つのデータ要素の距離を、この列においてこれら2つのデータ要素の間に挟まれたデータ要素の個数に基づいて定義すると共に、キー要素の近傍を、この距離に基づいて定義した。しかしながら、データ要素の近傍の定義は、一次元配列のデータ要素の列内に限定して定義されるものではない。
また、本実施形態に係るデータ要素提示方法S1において、メタデータをさらに利用する例について説明する。コンピュータ1が参照するデータがEMLデータである場合、本文を構成する文章データ以外のメタデータ(例えば、件名、宛先、日時など)をさらに利用することができる。例えば、件名を構成する文章データは、本文を構成する文章データと同様に処理することができる。
本実施形態に係るデータ要素提示方法S1において、ユーザに文書データを提示する例について説明する。本実施形態において、コントローラ12は、選択処理S12にて選択された共起データ要素のみをユーザに提示するが、前記共起データ要素を含む文書データをユーザにさらに提示してもよい。例えば、コントローラ12は、選択処理S12にて選択された共起データ要素に、その属性等によってラベルをまず付与する。属性とは、例えば、「顧客」、「カルテル関係企業」、「カルテル関係者」等のように、その共起データ要素の性質及び分類等を示すものである。次に、コントローラ12は、ラベルを付与された共起データ要素が多く含まれる文書データを検索し、該文書データをユーザに提示する。特定のラベルが付与された共起データ要素を多く含む文書データをユーザに提示されることで、ユーザは、ピックアップすべき文書データを効率的に見つけることができる。
本実施形態においては、特定の抽出条件を満たすデータからなるデータ群Dを参照することによって、予め定められたキー要素を補完するデータ要素からなるリストを生成するデータ要素提示方法S1について説明したが、本発明はこれに限定されない。すなわち、抽出条件を満たすデータからなるデータ群Dに加えて、抽出条件を満たさないデータとからなるデータ群D’を参照することによって、予め定められたキー要素を補完するデータ要素のリストを生成するデータ要素提示方法(以下、データ要素提示方法S1’と記載する)についても、本発明の範疇に含まれる。ここでは、抽出条件を満たすデータを指定することを「タグを付ける」と呼ぶ。また、抽出条件を満たすデータを「タグ付データ」と呼び、抽出条件を満たさないデータを「タグ無データ」と呼ぶ。
前述のように、本発明に係るコンピュータ、データ要素提示方法、及びプログラムは、与えられたキー要素を補完するデータ要素を提示する具体例として説明したが、これに限定されない。本発明に係るコンピュータ、データ要素提示方法、及びプログラムは、大量のデータから特定のデータを抽出することを目的として、ユーザによって指定されたキー要素を用いてデータ群を絞り込む作業(いわゆる「情報検索」)に広く適用可能である。
本発明の態様1に係るコンピュータは、メモリとコントローラとを備え、前記メモリは、複数のデータからなるデータ群を記憶し、前記コントローラは、前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として選択する選択処理と、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
Claims (10)
- メモリとコントローラとを備えたコンピュータであって、
前記メモリは、複数のデータからなるデータ群を記憶し、
前記コントローラは、
前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも1つ選択する選択処理と、
前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、
前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する、
ことを特徴とするコンピュータ。 - 前記コントローラは、
前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じた順序にソートするソート処理を更に実行する、
ことを特徴とする請求項1に記載のコンピュータ。 - 前記コントローラは、
前記予め定められたデータ要素と、前記選択処理にて選択されたデータ要素の全部又は一部とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する抽出処理を更に実行する、
ことを特徴とする請求項1又は2に記載のコンピュータ。 - 前記コントローラは、
前記選択処理にて選択された共起データ要素から、キー要素とするデータ要素を選択するユーザ操作を受け付ける受付処理を更に実行し、
前記抽出処理は、前記予め定められたデータ要素と、前記受付処理にてユーザにより選択されたデータ要素とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する、
ことを特徴とする請求項3に記載のコンピュータ。 - 前記抽出処理は、前記選択処理にて選択されたデータ要素をキー要素に加えることによって、予め定められた抽出条件を満たすデータが抽出結果から漏れる可能性を軽減するための処理である、
ことを特徴とする請求項3又は4に記載のコンピュータ。 - 前記算出処理は、前記選択処理にて選択された各共起データ要素について、(1)前記データ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、(2)前記データ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、(3)前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる、
ことを特徴とする請求項1〜5の何れか1項に記載のコンピュータ。 - 前記メモリは、特定の条件を満たす複数のデータからなる第1のデータ群と前記特定の条件を満たさない複数のデータからなる第2のデータ群とを記憶し、
前記算出処理は、前記選択処理にて選択された各共起データ要素について、(1)前記第1のデータ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、(2)前記第1のデータ群に含まれるデータ、及び、前記第2のデータ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、(3)前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる、
ことを特徴とする請求項1〜6の何れか1項に記載のコンピュータ。 - 前記データ要素は、形態素であり、
前記データは、形態素の列である、
ことを特徴とする請求項1〜7の何れか1項に記載のコンピュータ。 - メモリとコントローラとを備えたコンピュータを用いて、予め定められたデータ要素を補完するデータ要素をユーザに提示するデータ要素提示方法であって、
前記メモリが、複数のデータからなるデータ群を記憶させる記憶処理と、
前記コントローラが、前記複数のデータからなるデータ群に含まれる各データにおいて、前記予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも1つ選択する選択処理と、
前記コントローラが、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、
前記コントローラが、前記選択処理にて選択された各共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を含む、
ことを特徴とするデータ要素提示方法。 - 請求項1〜8の何れか1項に記載のコンピュータを動作させるためのプログラムであって、該コンピュータに前記各処理を実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189371A JP6583899B1 (ja) | 2018-10-04 | 2018-10-04 | コンピュータ、データ要素提示方法、及びプログラム。 |
US16/590,524 US11055357B2 (en) | 2018-10-04 | 2019-10-02 | Computer, data element presentation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189371A JP6583899B1 (ja) | 2018-10-04 | 2018-10-04 | コンピュータ、データ要素提示方法、及びプログラム。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6583899B1 true JP6583899B1 (ja) | 2019-10-02 |
JP2020057330A JP2020057330A (ja) | 2020-04-09 |
Family
ID=68095270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018189371A Active JP6583899B1 (ja) | 2018-10-04 | 2018-10-04 | コンピュータ、データ要素提示方法、及びプログラム。 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11055357B2 (ja) |
JP (1) | JP6583899B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021099581A (ja) * | 2019-12-20 | 2021-07-01 | 株式会社日立製作所 | 品質評価装置および品質評価方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531811B2 (en) * | 2020-07-23 | 2022-12-20 | Hitachi, Ltd. | Method and system for extracting keywords from text |
JP7413214B2 (ja) * | 2020-09-09 | 2024-01-15 | 株式会社東芝 | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972396B1 (en) * | 2009-03-16 | 2015-03-03 | Guangsheng Zhang | System and methods for determining relevance between text contents |
CN104718546B (zh) | 2012-09-26 | 2017-12-05 | 株式会社东芝 | 文档分析装置以及记录介质 |
-
2018
- 2018-10-04 JP JP2018189371A patent/JP6583899B1/ja active Active
-
2019
- 2019-10-02 US US16/590,524 patent/US11055357B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021099581A (ja) * | 2019-12-20 | 2021-07-01 | 株式会社日立製作所 | 品質評価装置および品質評価方法 |
JP7227893B2 (ja) | 2019-12-20 | 2023-02-22 | 株式会社日立製作所 | 品質評価装置および品質評価方法 |
Also Published As
Publication number | Publication date |
---|---|
US11055357B2 (en) | 2021-07-06 |
US20200110780A1 (en) | 2020-04-09 |
JP2020057330A (ja) | 2020-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8996593B2 (en) | File management apparatus and file management method | |
CN108509482A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
JP6583899B1 (ja) | コンピュータ、データ要素提示方法、及びプログラム。 | |
US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
CN108446295A (zh) | 信息检索方法、装置、计算机设备和存储介质 | |
Tandel et al. | Multi-document text summarization-a survey | |
Bahassine et al. | Arabic text classification using new stemmer for feature selection and decision trees | |
US11520835B2 (en) | Learning system, learning method, and program | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
CN105653553B (zh) | 词权重生成方法和装置 | |
Kadhim et al. | Improving TF-IDF with singular value decomposition (SVD) for feature extraction on Twitter | |
Fatima et al. | New graph-based text summarization method | |
CN114201620A (zh) | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 | |
Akkuş et al. | Categorization of turkish news documents with morphological analysis | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
JP4569179B2 (ja) | ドキュメント検索装置 | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN114936376A (zh) | 文本定密方法及装置、非易失性存储介质、处理器 | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2013061757A (ja) | 文書分類方法 | |
Taghva et al. | Farsi searching and display technologies | |
Lamba et al. | Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations | |
Çavusoğlu et al. | Key Extraction in Table Form Documents: Insurance Policy as an Example |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190828 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6583899 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |