JP6583899B1 - コンピュータ、データ要素提示方法、及びプログラム。 - Google Patents

コンピュータ、データ要素提示方法、及びプログラム。 Download PDF

Info

Publication number
JP6583899B1
JP6583899B1 JP2018189371A JP2018189371A JP6583899B1 JP 6583899 B1 JP6583899 B1 JP 6583899B1 JP 2018189371 A JP2018189371 A JP 2018189371A JP 2018189371 A JP2018189371 A JP 2018189371A JP 6583899 B1 JP6583899 B1 JP 6583899B1
Authority
JP
Japan
Prior art keywords
data
occurrence
data element
computer
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018189371A
Other languages
English (en)
Other versions
JP2020057330A (ja
Inventor
陵大 田村
陵大 田村
井口 慎也
慎也 井口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fronteo Inc
Original Assignee
Fronteo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fronteo Inc filed Critical Fronteo Inc
Priority to JP2018189371A priority Critical patent/JP6583899B1/ja
Application granted granted Critical
Priority to US16/590,524 priority patent/US11055357B2/en
Publication of JP6583899B1 publication Critical patent/JP6583899B1/ja
Publication of JP2020057330A publication Critical patent/JP2020057330A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】与えられたキー要素を補完するデータ要素のリストを効率的に生成することを目的とする。【解決手段】コンピュータ(1)は、メモリ(11)とコントローラ(12)とを備え、メモリ(11)は、データを記憶し、コントローラ(12)は、予め定められたデータ要素の近傍のデータ要素を共起データ要素として選択する選択処理と、各共起データ要素の重要度を算出する算出処理と、前記各共起データ要素を提示する提示処理と、を実行する。【選択図】図1

Description

本発明は、キー要素を補完するデータ要素からなるリストを生成するデータ要素提示方法に関する。また、そのようなデータ要素提示方法を実施するコンピュータ、及びそのようなコンピュータを動作させるためのプログラムに関する。
大量のデータ(例えば、文章データ)の中から特定の抽出条件を満たすデータを見つけ出すピックアップ作業では、しばしば、コンピュータによる1次スクリーニングと、人間(以下、「レビューア」と記載する)による2次スクリーニングとが必要になる。1次スクリーニングでは、大量のデータの中から、抽出条件に関連するデータ要素(以下、「キー要素」と記載する)を含むデータをコンピュータが抽出する。2次スクリーニングでは、コンピュータが抽出したデータの中から、その条件を満たすデータをレビューアが抽出する。例えば、企業の保有する大量のデータの中から、ディスカバリーのために裁判所に提出するデータを見つけ出す作業は、このようなピックアップ作業の一例である。
WO2014/049708
1次スクリーニングに用いるキー要素は、通常、大量のデータから抜き出されたサンプルデータに基づいてヒューリスティックに選択される。このため、1次スクリーニングに用いるキー要素が不足していることにより、抽出条件を満たすデータが2次スクリーニングの対象から漏れ、その結果、ピックアップ作業の精度が低下するという問題がしばしば生じる。このような問題を回避するためには、1次スクリーニングに用いるキー要素の不足を効率的に補う技術、例えば、与えられたキー要素を補完するデータ要素を提示する技術が必要になる。
本発明は、前記の問題に鑑みてなされたものであり、本発明の一態様は、与えられたキー要素を補完するデータ要素を提示する技術を実現することにある。
前記の課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備えたコンピュータであって、前記メモリは、複数のデータからなるデータ群を記憶し、前記コントローラは、前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも1つ選択する選択処理と、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する。
本発明の一態様によれば、与えられたキー要素を補完するデータ要素を提示することができる。
本発明の実施形態に係るコンピュータの構成を示すブロック図である。 本発明の実施形態に係るデータ要素提示方法の流れを示すフローチャートである。 図2に示すデータ要素提示方法の具体例を示す図である。 図2に示すデータ要素提示方法の変形例を示す図である。 (a)は、図3に示すデータ要素提示方法において算出される各共起データ要素の重要度を示すグラフであり、(b)図4に示すデータ要素提示方法において算出される各共起データ要素の重要度を示すグラフである。
〔コンピュータの構成〕
本発明の一実施形態に係るコンピュータ1の構成について、図1を参照して説明する。図1は、コンピュータ1の構成を示すブロック図である。
コンピュータ1は、図1に示したように、バス10を介して互いに接続された1又は複数のメモリ11と、1又は複数のコントローラ12と、ストレージ13と、入出力インターフェース14と、を備えている。メモリ11としては、例えば、半導体RAM(random access memory)が用いられる。コントローラ12としては、例えば、CPU(Central Processing Unit)が用いられる。ストレージ13としては、例えば、HDD(Hard Disk Drive)が用いられる。入出力インターフェース14としては、例えば、USB(Universal Serial Bus)インターフェースが用いられる。
入出力インターフェース14には、例えば、入力装置2及び出力装置3が接続される。入力装置2としては、例えば、キーボード及びマウスが用いられる。出力装置3としては、例えば、ディスプレイ及びプリンタが用いられる。なお、コンピュータ1は、ラップトップ型コンピュータのように、入力装置2として機能するキーボート及び出力装置3として機能するディスプレイを内蔵していてもよい。また、コンピュータ1は、スマートフォン又はタブレット型コンピュータのように、入力装置2及び出力装置3として機能するタッチパネルを内蔵していてもよい。さらに、コンピュータ1、入力装置2及び出力装置3は、一体として構成されていてもよいし、それぞれ別々の装置として分離されていてもよい。
ストレージ13には、後述するデータ要素提示方法S1をコンピュータ1に実施させるためのプログラムPが格納されている。コントローラ12は、ストレージ13に格納されたプログラムPをメモリ11上に展開し、メモリ11上に展開されたプログラムPに含まれる各命令を実行することによって、後述するデータ要素提示方法S1に含まれる各ステップを実行する。また、ストレージ13には、後述するデータ要素提示方法S1においてコンピュータ1が参照するデータからなるデータ群Dが格納されている。コントローラ12は、ストレージ13に格納されたデータ群に含まれる各データをメモリ11上に展開し、これを後述するデータ要素提示方法S1に含まれる各ステップにおいて参照する。
なお、コンピュータ1が内部記憶媒体であるストレージ13に格納されているプログラムPを用いて後述するデータ要素提示方法S1を実施する形態について説明したが、これに限定されない。すなわち、コンピュータ1が外部記録媒体に格納されているプログラムPを用いて後述するデータ要素提示方法S1を実施する形態を採用してもよい。この場合、外部記録媒体としては、コンピュータ1が読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブル論理回路などを用いることができる。あるいは、コンピュータ1が通信ネットワークを介して取得したプログラムPを用いて後述するデータ要素提示方法S1を実施する形態を採用してもよい。この場合、通信ネットワークとしては、例えば、インターネット、又はLANなどを用いることができる。
〔データ要素提示方法の流れ〕
次に、コンピュータ1が実施するデータ要素提示方法S1について、図2を参照して説明する。図2は、データ要素提示方法S1の流れを示すフローチャートである。
データ要素提示方法S1は、特定の抽出条件を満たすデータからなるデータ群Dに基づいて、与えられたキー要素を補完するデータ要素を提示する方法である。データ要素提示方法S1は、図2に示すように、記憶処理S10と、フィルタ処理S11と、選択処理S12と、算出処理S13と、ソート処理S14と、提示処理S15と、を含んでいる。
記憶処理S10は、コンピュータ1のメモリ11にデータ群Dを記憶させる処理である。記憶処理S10は、コンピュータ1のコントローラ12によって実行される。
データ群Dに含まれる各データは、データ要素の列である。本実施形態においては、データ群Dに含まれる各データとして、主に、形態素の列を含む文書データを想定する。文書データとしては、例えば、TXTデータ(プレインテキストデータ)、RTFデータ(リッチテキストデータ)、PDFデータ、DOCデータ、EMLデータが挙げられる。文書データの記述言語は、特定に限定されない。例えば、日本語であってもよいし、英語であってもよいし、その他の言語であってもよいし、それらが任意に混在していてもよい。文章データを構成する文字の文字種も、特に限定されない。例えば、漢字、数字、英字、平仮名、片仮名等が挙げられる。
フィルタ処理S11は、データ群Dに含まれる各データから、キー要素になり得ないデータ要素として予め定められたデータ要素を除去する処理である。フィルタ処理S11は、コンピュータ1のコントローラ12によって実行される。
データ群Dに含まれる各データが文章データである場合、フィルタ処理S11においては、例えば、固有名詞、数字、英文字(暫定名詞のみ)、未知語以外の形態素が文章データから除去される。この場合、フィルタ処理S11が施された文章データは、固有名詞、数字、英文字、未知語の列となる。例えば、文章データが”休館日/は/土曜日/と/祝日/です/。/日曜日/の/開館/時間/は/10/時/です/。”である場合、フィルタ処理S11が施された文章データは、”休館日/土曜日/祝日/日曜日/開館/時間/10/時”となる。
なお、フィルタ処理S11に利用される形態素解析には、公知の形態素解析エンジンが適用され得る。また、形態素解析は、フィルタ処理S11と同じくコンピュータ1のコントローラ12が行ってもよく、コンピュータ1とは別のコンピュータが行ってもよい。
選択処理S12は、フィルタ処理S11が施された各データにおいてキー要素として与えられたデータ要素の近傍に存在するデータ要素を共起データ要素として選択する処理である。選択処理S12は、フィルタ処理S11を実行した後、コンピュータ1のコントローラ12によって実行される。
ここで、あるデータ要素の近傍とは、例えば、そのデータ要素との距離が予め定められた閾値以下になるデータ要素の集合のことを指す。2つのデータ要素の間の距離は、例えば、これら2つのデータ要素の間に存在するデータ要素の個数に1を加えた自然数により定義される。例えば、フィルタ処理S11が施された文章データが”休館日/土曜日/祝日/日曜日/開館/時間/10/時”である場合、”休館日”と”土曜日”との間の距離は1となり、”休館日”と”祝日”との間の距離は2となる。また、例えば、近傍を定義する閾値が1である場合、”休館日”の近傍にある形態素は、”土曜日”となり、”土曜日”の近傍にある形態素は、”休館日”及び”祝日”となる。
算出処理S13は、選択処理S12にて選択された各共起データ要素の重要度を、データ群Dに含まれる各データにおける該共起データ要素の出現回数に基づいて算出する処理である。算出処理S13は、選択処理S12を実行した後に、コンピュータ1のコントローラ12によって実行される。
算出処理S13は、例えば、下記の処理(a)〜(c)によって実現される。
処理(a):コントローラ12は、選択処理S12にて選択された各共起データ要素tの、データ群Dに含まれる各データdにおける出現回数ns,dをカウントする。なお、データ群Dに含まれるデータの個数をNとし、選択処理S12にて選択された共起データ要素の個数をMとすると、出現回数ns,dは、N行M列の行列として表現される。以下、この行列のことを「共起行列」とも記載する。
処理(b):コントローラ12は、選択処理S12にて選択された各共起データ要素tの、データ群Dに含まれる各データdにおける出現頻度tf(t,d)を算出する。出現頻度tf(t,d)は、下記の式(1)により定義される。ここで、Σs∈ds,dは、共起データ要素のデータdにおける総出現回数を表す。
Figure 0006583899
処理(c):コントローラ12は、選択処理S12にて選択された各共起データ要素tについて、データ群Dに含まれるデータのうち、その共起データ要素を含むデータの個数df(t)をカウントする。
処理(d):コントローラ12は、選択処理S12にて選択された各共起データ要素tの重要度W(t)を、処理(b)にて算出した出現頻度tf(t,d)と、処理(c)にして算出したデータ数df(t)と、に基づいて算出する。
処理(c)にて算出される重要度W(t)は、処理(b)にて算出した出現頻度tf(t,d)が大きくなるほど大きくなり、処理(c)にて算出したデータ数df(t)が大きくなるほど小さくなるものであることが好ましい。このような条件を満たす重要度W(t)としては、例えば、下記の式(2)及び式(3)より定義されるTF・IDF(t,d)の和Σd∈DTF・IDF(t,d)が挙げられる。
Figure 0006583899
Figure 0006583899
ソート処理S14は、選択処理S12にて選択された共起データ要素を、算出処理S13にて算出された重要度W(t)に応じた順序にソートする処理である。ソート処理S14は、前記算出処理S13を実行した後に、コンピュータ1のコントローラ12によって実行される。この場合、コントローラ12は、このリストを算出処理S13にて算出された重要度W(t)の降順にソートすることによって、ソートされた共起データ要素のリストを生成してもよい。ソートされた共起データ要素のリストは、例えば、与えられたキー要素を補完するデータ要素を重要度順に並べたリストである。
提示処理S15は、選択処理S12にて選択された共起データ要素を、算出処理S13にて算出された重要度W(t)に応じてユーザに提示する処理である。例えば、ソート処理S14によって重要度に応じてソートされた共起データ要素を提示する。すなわち、提示処理S15は、ソートされた共起データ要素のリストをユーザに提示する処理でもある。なお、提示処理S15は、選択処理S12にて選択された共起データ要素、またはソートされた共起データ要素のリストを、必ずしもすべて提示するわけではない。それらの一部を提示する場合もある。なお、提示処理S15は、一例として、ソート処理S14を実行した後、コンピュータ1のコントローラ12によって実行される。
例えば、コントローラ12は、ソート処理S14にてソートされた共起データ要素のリストを、入出力インターフェース14を介して出力装置3から出力する。例えば、出力装置3がディスプレイである場合には、このディスプレイに表示されたリストがユーザに提示されることになる。或いは、出力装置3がプリンタである場合には、このプリンタにより紙に印刷されたリストがユーザに提示されることになる。
このように、データ要素提示方法S1を実施することによって、コンピュータ1は、与えられたキー要素を補完可能なデータ要素を重要度順に並べてリスト化し、このリストをユーザに提示することができる。これにより、ユーザは、このリストに含まれるデータ要素を新たなキー要素として加えた状態で、所定の抽出条件を満たすデータを抽出するための1次スクリーニングをコンピュータに実施させることができる。したがって、コンピュータ1は、この抽出条件を満たすデータを1次スクリーニングで漏らす危険性を軽減させることができるため、前記抽出条件に該当するデータを見つけ出すピックアップ作業の精度を向上させることができる。
このように、データ要素提示方法S1を実施することによって、コンピュータ1は、データ群Dにおいて与えられたキー要素に共起する共起データ要素を、与えられたキー要素を補完するデータ要素としての重要度に応じて、ユーザに提示することができる。より具体的に言うと、コンピュータ1は、データ群Dにおいて与えられたキー要素に共起する共起データ要素を、与えられたキー要素を補完するデータ要素としての重要度順に並べてリスト化し、このリストをユーザに提示することができる。これにより、ユーザは、与えられたキー要素とこのリストに含まれるデータ要素とを新たなキー要素として、前記抽出条件を満たすデータを抽出するための1次スクリーニングをコンピュータに実施させることができる。これにより、コンピュータ1は、与えられたキー要素のみを用いる場合と比べて、より精度の高い(前記抽出条件を満たすデータが抽出結果から漏れるリスクがより小さい)1次スクリーニングを行うことができる。その結果、前記抽出条件に該当するデータを見つけ出すピックアップ作業の精度を向上させることができる。
ここで、コンピュータ1のコントローラ12は、1次スクリーニングとして、(1)与えられたキー要素と、このリストに含まれるデータ要素の全部とを新たなキー要素とする抽出処理(キー要素を含むデータを抽出する処理)を実行してもよいし、(2)与えられたキー要素と、このリストに含まれるデータ要素の一部とを新たなキー要素とする抽出処理を実行してもよい。形態(2)を採用する場合、新たなキー要素とするデータ要素は、(2a)このリストからユーザが選択したデータ要素であってもよいし、(2b)のリストから重要度に応じてコンピュータ1が選択したデータであってもよい。形態(2a)を採用する場合、コンピュータ1のコントローラ12は、例えば、このリストに含まれるデータ要素の中から、新たなキー要素とするデータ要素を選択するユーザ操作を受け付ける受付処理を実行する。形態(2b)を採用する場合、コンピュータ1のコントローラ12は、例えば、このリストに含まれるデータ要素の中から、予め定められた個数のデータ要素を重要度の降順に選択する選択処理を実行する。なお、1次スクリーニングの対象とする母集団は、データ群Dであってもよいし、データ群D以外のデータ群(データの集合)であってもよい。また、1次スクリーニングは、抽出するデータの個数が予め定められたスクリーニングであってもよいし、抽出するデータの個数が予め定められていないスクリーニングであってもよい。
なお、キー要素を補完可能なデータ要素をユーザに提示することによって前記効果を奏する製品・サービスは、本実施形態に係るコンピュータ1が備えた構成の一部または全部を備えていると推定される。
〔データ要素提示方法の具体例〕
データ要素提示方法S1の具体例について、図3を参照して説明する。ここでは、記憶処理S10にて5つの文章データDoc_1〜Doc_5からなるデータ群Dがメモリ11に記憶された場合に、”A社”というキーワード(キー要素)を補完する形態素(データ要素)のリストを生成する方法を説明する。
フィルタ処理S11では、各文章データd(d=Doc_1,Doc_2,Doc_3,Doc_4,Doc_5)から、固有名詞、数字、英文字、未知語以外の形態素が除去される。図3においては、これらの形態素が除去され、形態素”山口”、”くん”、”A社”、”Z社”、”Z社”、”A社”、・・・が残った文章データDoc_1を例示している。なお、図3においては、データ群Dに含まれる全ての文章データをフィルタ処理S11の対象としているが、これに限定されない。例えば、データ群Dに含まれる文章データのうち、”A社”という形態素を含む文章データのみをフィルタ処理S11の対象としてもよい。
選択処理S12では、フィルタ処理S11が施された各文章データdにおいてキーワード”A社”の近傍に存在する形態素が共起データ要素として選択される。図3においては、フィルタ処理S11が施された文章データDoc_1においてキーワード”A社”の近傍に存在する形態素”くん”、”Z社”が共起データ要素として選択される様子を示している。図3において、”くん”、”Z社”以外の共起データ要素は、文章データDoc_1以外の文章データから選択された共起データ要素である。なお、本具体例では、キーワード”A社”からの距離が1以下の形態素を、キーワード”A社”の近傍に存在する形態素と規定している。
算出処理S13では、選択処理S12にて選択された各共起データ要素t(t=”注意”,”くん”,”Z社”,”調査”,”新橋”)の重要度W(t)を、各共起データ要素tの各文章データdにおける出現回数ns,dに基づいて算出する。
算出処理S13は、以下のように行われる。
まず、選択処理S12にて選択された各共起データ要素tについて、データ群Dに含まれる各文章データdにおける出現回数ns,dがカウントされる。ここでは、下記の表1に示す出現回数ns,dが得られたものとする。出現回数ns,dを5行5列の行列と見做したものを、以下、共起行列ns,dと呼ぶ。
Figure 0006583899
次に、選択処理S12にて選択された各共起データ要素tについて、データ群Dに含まれる各文章データdにおけるtf(t,d)が、前記の式(1)に従って算出される。共起行列ns,dが前記の表1のようになる場合、tf(t,d)は、下記の表2のように算出される。例えば、共起データ要素の文章データDoc_1における総出現回数は、3回(”くん”が1回、”Z社”が2回)であり、共起データ要素”Z社”の文章データDoc_1における出現回数nZ社、Doc_1は、2回である。したがって、tf(Z社、Doc_1)は、2/3となる。
Figure 0006583899
次に、選択処理S12にて選択された各共起データ要素tについて、df(t)がカウントされる。上述したように、df(t)は、データ群Dに含まれる文章データDoc_1〜Doc_5のうち、共起データ要素tを含む文章データの個数である。共起行列ns,dが前記の表1のようになる場合、df(t)は、下記の表3のようにカウントされる。例えば、共起データ要素”Z社”を含む文章データは、文章データDoc_1、文章データDoc_2、文章データDoc_3、文章データDoc_5の4個である。したがって、df(Z社)は、4となる。
Figure 0006583899
次に、選択処理S12にて選択された各共起データ要素tについて、idf(t)が前記の式(2)に従って算出される。共起行列ns,dが前記の表1のようになる場合、idf(t)は、下記の表4のように算出される。例えば、データ群Dに含まれる文章データは、文章データDoc_1、文章データDoc_2、文章データDoc_3、文章データDoc_4、文章データDoc_5の5個であり、df(Z社)は、4である。したがって、idf(Z社)は、log(5/4)+1≒1.097となる。
Figure 0006583899
次に、選択処理S12にて選択された各共起データ要素tについて、各文章データdにおけるTF・IDF(t,d)が、前記の式(3)に従って算出される。共起行列ns,dが前記の表1のようになる場合、TF・IDF(t,d)は、下記の表5のように算出される。例えば、tf(Z社,Doc_1)は、2/3であり、idf(Z社)は、1.097である。したがって、TF・IDF(Z社,Doc_1)は、2/3×1.097≒0.7313となる。
Figure 0006583899
最後に、選択処理S12にて選択された各共起データ要素tについて、重要度W(t)が算出される。上述したように、重要度W(t)は、例えば、TF・IDF(t,d)の和Σd∈DTF・IDF(t,d)により定義される。共起行列ns,dが前記の表1のようになる場合、重要度W(t)は、下記の表6のように算出される。例えば、TF・IDF(Z社,Doc_1)は、0.7313であり、TF・IDF(Z社,Doc_2)は、0.1828であり、TF・IDF(Z社,Doc_3)は、0.7313であり、TF・IDF(Z社,Doc_4)は、0であり、TF・IDF(Z社,Doc_5)は、0.2742である。したがって、重要度W(Z社)は、0.7313+0.1828+0.7313+0+0.2742=1.9196となる。
Figure 0006583899
ソート処理S14では、選択処理S12にて選択された共起データ要素のリスト{注意,くん,Z社,調査,新橋}が、算出処理S13にて算出された重要度W(t)に応じた順序にソートされる。重要度W(t)が前記の表6のようになる場合、重要度W(t)に応じた順序にソートされた共起データ要素のリストは、{Z社,注意,くん,新橋,調査}となる。このとき、提示処理S15は、例えば、「Z社」のみをユーザに提示してもよいし、リストに含まれる共起データ要素のすべてをユーザに提示してもよい。
〔データ要素の近傍〕
本実施形態においては、データ要素提示方法S1を実施するためにコンピュータ1が参照するデータが、データ要素の列であることを仮定した。この仮定の下、本実施形態においては、2つのデータ要素の距離を、この列においてこれら2つのデータ要素の間に挟まれたデータ要素の個数に基づいて定義すると共に、キー要素の近傍を、この距離に基づいて定義した。しかしながら、データ要素の近傍の定義は、一次元配列のデータ要素の列内に限定して定義されるものではない。
データが、例えば、複数の行を含むテキストデータである場合、あるデータ要素の近傍を、そのデータ要素と上下左右で隣接するデータ要素の集合とも定義できる。すなわち、例えば、そのデータ要素を含む行の1行前に含まれ、略同じ列に含まれる形態素(上で隣接するデータ要素)、そのデータ要素を含む行の1行後に含まれ、略同じ列に含まれる形態素(下で隣接するデータ要素)、そのデータ要素を含む行と同じ行に含まれ、距離1の列に含まれる形態素(左右で隣接するデータ要素)を、そのデータ要素の近傍としてもよい。
さらに、データ要素の近傍の定義は、データ構造における物理的な距離に限定して定義されるものでもない。すなわち、データ要素の近傍は、例えば、異なるデータにおいて概念的に近いと定義されてもよい。例えば、あるデータが「A社と例の案件について協議した結果」というテキストを含み、別のデータが「B社と例の案件について議論したところ」というテキストを含む場合、「A社」と「B社」とは「案件について話し合った」という点において概念的に近い。すなわち、前述のように、データ構造における物理的な距離は近くないが、前後の文脈が略一致するため、両者は「近傍」にあると言える。前後の文脈を解析するために、例えば、フィルタ処理S11において、構文解析(係り受け解析)が行われてもよい。
例えば、本発明に係るデータ要素提示方法を実施するためにコンピュータ1が参照するデータは、XLSデータなどの表計算データであってもよい。表計算データでは、シート内に複数のセルが行列状に配置される。2つのセルの距離Δは、例えば、一方のセルの位置をi行j列とし、他方のセルの位置をi’行j’列として、Δ={(i−i’)+(j−j’)1/2により定義することができる。したがって、キー要素を含むセルからの距離Δが予め定められた閾値以内にあるセルに含まれるデータ要素を、キー要素の近傍に存在するデータ要素と見做すことで、上述したデータ要素提示方法S1を適用することができる。また、各セルが文章データ(形態素の列)を含む表計算データについては、キー要素と同じセルに含まれる形態素の中で、キー要素からの距離(例えば、キー要素との間に挟まれている形態素の個数+1)が予め定められた閾値以下となる形態素を、キー要素の近傍に存在するデータ要素と見做してもよい。
或いは、本発明に係るデータ要素提示方法を実施するためにコンピュータ1が参照するデータは、PPTデータなどのプレゼンテーションデータであってもよい。プレゼンテーションデータでは、スライド内に複数のテキストボックスが自由に配置される。2つのテキストボックスの距離Δは、例えば、一方のテキストボックスの中心座標を(x,y)とし、他方のテキストボックスの中心座標を(x’,y’)として、Δ={(x−x’)+(y−y’)1/2により定義することができる。したがって、キー要素を含むテキストボックスからの距離Δが予め定められた閾値以内にあるセルに含まれるデータ要素を、キー要素の近傍に存在するデータ要素と見做すことで、上述したデータ要素提示方法S1を適用することが可能である。また、各テキストボックスが文章データ(形態素の列)を含むプレゼンテーションデータについては、キー要素と同じテキストボックスに含まれる形態素の中で、キー要素からの距離(キー要素との間に挟まれている形態素の個数+1)が予め定められた閾値以下となる形態素を、キー要素の近傍に存在するデータ要素と見做してもよい。
このように、「データ要素の近傍」は様々に定義可能である。すなわち、上記した定義はあくまでも一例に過ぎず、これらの変形例はすべて本発明の範囲に含まれる。
〔応用例1〕
また、本実施形態に係るデータ要素提示方法S1において、メタデータをさらに利用する例について説明する。コンピュータ1が参照するデータがEMLデータである場合、本文を構成する文章データ以外のメタデータ(例えば、件名、宛先、日時など)をさらに利用することができる。例えば、件名を構成する文章データは、本文を構成する文章データと同様に処理することができる。
また、対象のEMLデータのメールアドレス及び宛名等の「宛先」には、本文の文章とは別にタグを付し、データ要素提示方法S1の選択処理S12において対象のEMLデータ本文の文章から選択された複数の共起データ要素それぞれと、「宛先」とを紐付けておく。ソート処理S14において、各共起データ要素からなるリストには、共起データ要素と、各共起データ要素に紐付けられた「宛先」とを表示する。これにより、ユーザは、各共起データ要素と関連がある「宛先」を確認することができる。また、ソート処理S14においてリストに挙がった共起データ要素と紐づいている「宛先」の出現頻度に応じて、特定の「宛先」を重要とみなすことができる。
また、対象のEMLデータの「日時」は、メールの送信日時又は受信日時である。対象のEMLの「日時」には、本文の文章とは別にタグを付し、データ要素提示方法S1の選択処理S12において対象のEMLデータ本文の文章から選択された複数の共起データ要素それぞれと、「日時」とを紐付けておく。算出処理S13において、各共起データ要素の出現回数又は出現頻度(tf)を算出する際に、コントローラ12は、各共起データ要素を、各共起データ要素に紐付けられた日時の順序にソートしてもよい。また、各共起データ要素が出現する日時の範囲を示してもよい。例えば、ある共起データ要素が出現する日時の範囲に基づいて、キーワード検索する対象文書を絞り込んでもよい。
〔応用例2〕
本実施形態に係るデータ要素提示方法S1において、ユーザに文書データを提示する例について説明する。本実施形態において、コントローラ12は、選択処理S12にて選択された共起データ要素のみをユーザに提示するが、前記共起データ要素を含む文書データをユーザにさらに提示してもよい。例えば、コントローラ12は、選択処理S12にて選択された共起データ要素に、その属性等によってラベルをまず付与する。属性とは、例えば、「顧客」、「カルテル関係企業」、「カルテル関係者」等のように、その共起データ要素の性質及び分類等を示すものである。次に、コントローラ12は、ラベルを付与された共起データ要素が多く含まれる文書データを検索し、該文書データをユーザに提示する。特定のラベルが付与された共起データ要素を多く含む文書データをユーザに提示されることで、ユーザは、ピックアップすべき文書データを効率的に見つけることができる。
また、特定のラベルが付与された共起データ要素を多く含む文書データには、共起データ要素として提示されたデータ要素以外にも、ユーザがピックアップすべきデータ要素が含まれている可能性が高い。これにより、ユーザは、提示された共起データ要素以外にもピックアップすべき重要なデータ要素を効率的に見つけることができる。この場合、ユーザが重要であると判断したデータ要素は、新たにキー要素として加えられ、スクリーニングにさらに利用されてもよい。
〔変形例〕
本実施形態においては、特定の抽出条件を満たすデータからなるデータ群Dを参照することによって、予め定められたキー要素を補完するデータ要素からなるリストを生成するデータ要素提示方法S1について説明したが、本発明はこれに限定されない。すなわち、抽出条件を満たすデータからなるデータ群Dに加えて、抽出条件を満たさないデータとからなるデータ群D’を参照することによって、予め定められたキー要素を補完するデータ要素のリストを生成するデータ要素提示方法(以下、データ要素提示方法S1’と記載する)についても、本発明の範疇に含まれる。ここでは、抽出条件を満たすデータを指定することを「タグを付ける」と呼ぶ。また、抽出条件を満たすデータを「タグ付データ」と呼び、抽出条件を満たさないデータを「タグ無データ」と呼ぶ。
本変形例に係るデータ要素提示方法S1’は、上述したデータ要素提示方法S1と同様、記憶処理S10’と、フィルタ処理S11’と、選択処理S12’と、算出処理S13’と、ソート処理S14’と、提示処理S15’と、を含んでいる。
記憶処理S10’は、コンピュータ1のメモリ11にデータ群D及びデータ群D’を記憶させる処理である。フィルタ処理S11’は、データ群Dに含まれる各データから、キー要素になり得ないデータ要素として予め定められたデータ要素を除去する処理である。選択処理S12’は、フィルタ処理S11’が施された各データにおいてキー要素として与えられたデータ要素の近傍に存在するデータ要素を共起データ要素として選択する処理である。算出処理S13’は、選択処理S12’にて選択された各共起データ要素の重要度を、データ群D及びデータ群D’に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する処理である。ソート処理S14’は、選択処理S12’にて選択された共起データ要素からなるリストを、算出処理S13’にて算出された重要度W(t)に応じた順序にソートする処理である。提示処理S15’は、ソート処理S14’にてソートされた共起データ要素のリストを、与えられたキー要素を補完するデータ要素を重要度順に並べたリストとしてユーザに提示する処理である。
以下、本変形例に係るデータ要素提示方法S1’の具体例を、図4を参照して説明する。ここでは、記憶処理S10’にて5つのタグ付データDoc_1〜Doc_5からなるデータ群Dと3つのタグ無データDoc_6〜Doc_8からなるデータ群D’とがメモリ11に記憶された場合に、”A社”というキーワード(キー要素)を補完する形態素(データ要素)のリストを生成する方法を説明する。
フィルタ処理S11’では、各タグ付データd(d=Doc_1,Doc_2,Doc_3,Doc_4,Doc_5)から、固有名詞、数字、英文字、未知語以外の形態素が除去される。図4においては、これらの形態素が除去され、形態素”山口”、”くん”、”A社”、”Z社”、”Z社”、”A社”、・・・が残った文章データDoc_1を例示している。
選択処理S12’では、フィルタ処理S11’が施された各タグ付データdにおいてキーワード”A社”の近傍に存在する形態素が共起データ要素として選択される。図4においては、フィルタ処理S11’が施された文章データDoc_1においてキーワード”A社”の近傍に存在する形態素”くん”、”Z社”が共起データ要素として選択される様子を示している。図4において、”くん”、”Z社”以外の共起データ要素は、文章データDoc_1以外の文章データから選択された共起データ要素である。なお、本具体例では、キーワード”A社”からの距離が1以下の形態素を、キーワード”A社”の近傍に存在する形態素と規定している。
算出処理S13’では、選択処理S12’にて選択された各共起データ要素t(t=”注意”,”くん”,”Z社”,”調査”,”新橋”)の重要度W(t)を、各共起データ要素tの各文章データdにおける出現回数ns,dに基づいて算出する。
算出処理S13’は、以下のように行われる。
まず、選択処理S12’にて選択された各共起データ要素tについて、データ群Dに含まれる各文章データdにおける出現回数ns,dがカウントされる。ここでの出現回数ns,dに基づく共起行列ns,dは、表1で示した共起行列と同じである。
また、本例においては、選択処理S12にて選択された各共起データ要素tについて、、データ群D’に含まれる各タグ無データd’(d’=Doc_6,Doc_7,Doc_8)における出現回数ns,d’もカウントされる。ここでは、例えば、タグ無データd’に対して、キーワード検索することで、出現回数をカウントできる。
次に、選択処理S12’にて選択された各共起データ要素tについて、データ群Dに含まれる各文章データdにおけるtf(t,d)が、前記の式(1)に従って算出される。算出されたtf(t,d)は、実施形態の表2に示す表と同じである。例えば、共起データ要素の文章データDoc_1における総出現回数は、3回(”くん”が1回、”Z社”が2回)であり、共起データ要素”くん”の文章データDoc_1における出現回数nくん、Doc_1は、1回である。したがって、tf(くん、Doc_1)は、1/3となる。
次に、選択処理S12’にて選択された各共起データ要素tについて、df(t)がカウントされる。本例におけるdf(t)は、データ群Dに含まれる文章データDoc_1〜Doc_5及びデータ群D’に含まれる文章データDoc_6〜Doc_8のうち、共起データ要素tを含む文章データの個数である。共起データ要素tを含む文章データDoc_6〜Doc_8の個数を利用する点で実施形態とは異なる。例えば、”くん”が、Doc_6〜Doc_8にそれぞれ1回出現する場合、”くん”を含む文章データは、文章データDoc_6、Doc_7及びDoc_8の3個である。文章データDoc_1〜Doc_5の結果と合わせて、”くん”のdf(くん)は、7となる。本例のdf(t)は、下記表7のようにカウントされる。
Figure 0006583899
次に、選択処理S12’にて選択された各共起データ要素tについて、idf(t)が前記の式(2)に従って算出される。df(t)が前記の表7のようになる場合、idf(t)は、下記の表8のように算出される。例えば、データ群Dに含まれる文章データは、文章データDoc_1、文章データDoc_2、文章データDoc_3、文章データDoc_4、文章データDoc_5の5個、データ群D’に含まれる文章データは、文章データDoc_6、文章データDoc_7、文章データDoc_8の3個であり、全ての文章データの個数は8個である。また、df(くん)は、7である。したがって、idf(くん)は、log(8/7)+1≒1.058となる。
Figure 0006583899
次に、選択処理S12’にて選択された各共起データ要素tについて、各文章データdにおけるTF・IDF(t,d)が、前記の式(3)に従って算出される。共起行列ns,dが前記の表1のようになる場合、TF・IDF(t,d)は、下記の表9のように算出される。例えば、tf(くん,Doc_1)は、1/3であり、idf(くん)は、1.058である。したがって、TF・IDF(くん,Doc_1)は、1/3×1.058≒0.3527となる。
Figure 0006583899
最後に、選択処理S12’にて選択された各共起データ要素tについて、重要度W(t)が算出される。上述したように、重要度W(t)は、例えば、TF・IDF(t,d)の和Σd∈DTF・IDF(t,d)により定義される。共起行列ns,dが前記の表1のようになる場合、重要度W(t)は、下記の表10のように算出される。例えば、TF・IDF(くん,Doc_1)は、0.3527であり、TF・IDF(くん,Doc_2)は、0.1763であり、TF・IDF(Z社,Doc_3)は、0.3527であり、TF・IDF(Z社,Doc_4)は、0.3527であり、TF・IDF(Z社,Doc_5)は、0である。したがって、重要度W(Z社)は、0.3527+0.1763+0.3527+0.3527+0=1.2343となる。
Figure 0006583899
ソート処理S14’では、選択処理S12’にて選択された共起データ要素のリスト{注意,くん,Z社,調査,新橋}が、算出処理S13’にて算出された重要度W(t)に応じた順序にソートされる。重要度W(t)が前記の表10のようになる場合、重要度W(t)に応じた順序にソートされた共起データ要素のリストは、{Z社,くん,注意,新橋,調査}となる。
実施形態でソートされた共起データ要素のリストは、{Z社,注意,くん,新橋,調査}であったのに対し、本変形例でソートされた共起データ要素のリストは、{Z社,くん,注意,新橋,調査}であった。
図5には、形態素毎に重要度Wを示した棒グラフを示す。図5の(a)はデータ群Dに含まれるタグ付データdのみを用いて重要度Wを算出した場合、図5の(b)は、データ群Dに含まれるタグ付データd及びデータ群D’に含まれるタグ無データd’を用いて重要度Wを算出した場合を示す。図5(a)は実施形態で算出した各形態素の重要度W、図5(b)は本変形例で算出した各形態素の重要度Wに該当する。
図5に示すように、”Z社”の重要度Wは、図5の(a)より図5の(b)の方が大きい。これは、”Z社”が、タグ付データdにのみ出現し、タグ無データd’には出現しないことを反映している。すなわち、”Z社”は、タグ付データdにのみ出現する特徴的な形態素であると言える。
逆に、図5に示すように、”調査”の重要度Wは、図5の(a)より図5の(b)の方が小さい。これは、”調査”が、タグ付データdにも、タグ無データd’にも出現することを反映している。すなわち、”調査”は、タグ付データdに限らず文書データ全体に渡って出現する特徴的ではない形態素であると言える。
このように、処理に利用する文書データの数を増やすことにより、形態素の重要度をより好適に算出し、重要な形態素を抽出することができる。
〔その他の応用例〕
前述のように、本発明に係るコンピュータ、データ要素提示方法、及びプログラムは、与えられたキー要素を補完するデータ要素を提示する具体例として説明したが、これに限定されない。本発明に係るコンピュータ、データ要素提示方法、及びプログラムは、大量のデータから特定のデータを抽出することを目的として、ユーザによって指定されたキー要素を用いてデータ群を絞り込む作業(いわゆる「情報検索」)に広く適用可能である。
〔まとめ〕
本発明の態様1に係るコンピュータは、メモリとコントローラとを備え、前記メモリは、複数のデータからなるデータ群を記憶し、前記コントローラは、前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として選択する選択処理と、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する。
本発明の態様2に係るコンピュータは、前記態様1において、前記コントローラが、前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じた順序にソートするソート処理を更に実行する。
本発明の態様3に係るコンピュータは、前記態様1又は2において、前記コントローラが、前記予め定められたデータ要素と、前記選択処理にて選択されたデータ要素の全部又は一部とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する抽出処理を更に実行する。
本発明の態様4に係るコンピュータは、前記態様3において、前記コントローラが、前記選択処理にて選択された共起データ要素から、キー要素とするデータ要素を選択するユーザ操作を受け付ける受付処理を更に実行し、前記抽出処理は、前記予め定められたデータ要素と、前記受付処理にてユーザにより選択されたデータ要素とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する。
本発明の態様5に係るコンピュータは、前記態様3又は4において、前記抽出処理が、前記選択処理にて選択されたデータ要素をキー要素に加えることによって、予め定められた抽出条件を満たすデータが抽出結果から漏れる可能性を軽減するための処理である。
本発明の態様6に係るコンピュータは、前記態様1〜5の何れか1つにおいて、前記算出処理は、前記選択処理にて選択された各共起データ要素について、(1)前記データ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、(2)前記データ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、(3)前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる。
本発明の態様7に係るコンピュータは、前記態様5において、前記メモリは、前記抽出条件を満たす複数のデータからなる第1のデータ群と前記抽出条件を満たさない複数のデータからなる第2のデータ群とを記憶し、前記算出処理は、前記選択処理にて選択された各共起データ要素について、(1)前記第1のデータ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、(2)前記第1のデータ群に含まれるデータ、及び、前記第2のデータ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、(3)前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる。
本発明の態様8に係るコンピュータは、前記態様1〜7の何れかにおいて、前記データは、テキスト又はテキストの集合であり、前記データ要素は、形態素である。
本発明の態様9に係るデータ要素提示方法は、メモリとコントローラとを備えたコンピュータを用いて、予め定められたデータ要素をユーザに提示するデータ要素提示方法であって、前記メモリが、複数のデータからなるデータ群を記憶させる記憶処理と、前記コントローラが、前記複数のデータからなるデータ群に含まれる各データにおいて、前記予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも1つ選択する選択処理と、前記コントローラが、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、前記コントローラが、前記選択処理にて選択された各共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を含む。
本発明の態様10に係るプログラムは、前記態様1〜8の何れか1つに記載のコンピュータを動作させるためのプログラムであって、該コンピュータを前記各処理として機能させるためのプログラム。
〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1:コンピュータ、11:メモリ、12:コントローラ、S1:データ要素提示方法、S10:記憶処理、S11:フィルタ処理、S12:選択処理、S13:算出処理、S14:ソート処理、S15:提示処理

Claims (10)

  1. メモリとコントローラとを備えたコンピュータであって、
    前記メモリは、複数のデータからなるデータ群を記憶し、
    前記コントローラは、
    前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも1つ選択する選択処理と、
    前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、
    前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する、
    ことを特徴とするコンピュータ。
  2. 前記コントローラは、
    前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じた順序にソートするソート処理を更に実行する、
    ことを特徴とする請求項1に記載のコンピュータ。
  3. 前記コントローラは、
    前記予め定められたデータ要素と、前記選択処理にて選択されたデータ要素の全部又は一部とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する抽出処理を更に実行する、
    ことを特徴とする請求項1又は2に記載のコンピュータ。
  4. 前記コントローラは、
    前記選択処理にて選択された共起データ要素から、キー要素とするデータ要素を選択するユーザ操作を受け付ける受付処理を更に実行し、
    前記抽出処理は、前記予め定められたデータ要素と、前記受付処理にてユーザにより選択されたデータ要素とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する、
    ことを特徴とする請求項3に記載のコンピュータ。
  5. 前記抽出処理は、前記選択処理にて選択されたデータ要素をキー要素に加えることによって、予め定められた抽出条件を満たすデータが抽出結果から漏れる可能性を軽減するための処理である、
    ことを特徴とする請求項3又は4に記載のコンピュータ。
  6. 前記算出処理は、前記選択処理にて選択された各共起データ要素について、(1)前記データ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、(2)前記データ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、(3)前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる、
    ことを特徴とする請求項1〜5の何れか1項に記載のコンピュータ。
  7. 前記メモリは、特定の条件を満たす複数のデータからなる第1のデータ群と前記特定の条件を満たさない複数のデータからなる第2のデータ群とを記憶し、
    前記算出処理は、前記選択処理にて選択された各共起データ要素について、(1)前記第1のデータ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、(2)前記第1のデータ群に含まれるデータ、及び、前記第2のデータ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、(3)前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる、
    ことを特徴とする請求項1〜6の何れか1項に記載のコンピュータ。
  8. 前記データ要素は、形態素であり、
    前記データは、形態素の列である、
    ことを特徴とする請求項1〜7の何れか1項に記載のコンピュータ。
  9. メモリとコントローラとを備えたコンピュータを用いて、予め定められたデータ要素を補完するデータ要素をユーザに提示するデータ要素提示方法であって、
    前記メモリが、複数のデータからなるデータ群を記憶させる記憶処理と、
    前記コントローラが、前記複数のデータからなるデータ群に含まれる各データにおいて、前記予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも1つ選択する選択処理と、
    前記コントローラが、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、
    前記コントローラが、前記選択処理にて選択された各共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を含む、
    ことを特徴とするデータ要素提示方法。
  10. 請求項1〜8の何れか1項に記載のコンピュータを動作させるためのプログラムであって、該コンピュータに前記各処理を実行させるプログラム。
JP2018189371A 2018-10-04 2018-10-04 コンピュータ、データ要素提示方法、及びプログラム。 Active JP6583899B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018189371A JP6583899B1 (ja) 2018-10-04 2018-10-04 コンピュータ、データ要素提示方法、及びプログラム。
US16/590,524 US11055357B2 (en) 2018-10-04 2019-10-02 Computer, data element presentation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018189371A JP6583899B1 (ja) 2018-10-04 2018-10-04 コンピュータ、データ要素提示方法、及びプログラム。

Publications (2)

Publication Number Publication Date
JP6583899B1 true JP6583899B1 (ja) 2019-10-02
JP2020057330A JP2020057330A (ja) 2020-04-09

Family

ID=68095270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018189371A Active JP6583899B1 (ja) 2018-10-04 2018-10-04 コンピュータ、データ要素提示方法、及びプログラム。

Country Status (2)

Country Link
US (1) US11055357B2 (ja)
JP (1) JP6583899B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021099581A (ja) * 2019-12-20 2021-07-01 株式会社日立製作所 品質評価装置および品質評価方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531811B2 (en) * 2020-07-23 2022-12-20 Hitachi, Ltd. Method and system for extracting keywords from text
JP7413214B2 (ja) * 2020-09-09 2024-01-15 株式会社東芝 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972396B1 (en) * 2009-03-16 2015-03-03 Guangsheng Zhang System and methods for determining relevance between text contents
CN104718546B (zh) 2012-09-26 2017-12-05 株式会社东芝 文档分析装置以及记录介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021099581A (ja) * 2019-12-20 2021-07-01 株式会社日立製作所 品質評価装置および品質評価方法
JP7227893B2 (ja) 2019-12-20 2023-02-22 株式会社日立製作所 品質評価装置および品質評価方法

Also Published As

Publication number Publication date
US11055357B2 (en) 2021-07-06
US20200110780A1 (en) 2020-04-09
JP2020057330A (ja) 2020-04-09

Similar Documents

Publication Publication Date Title
US8996593B2 (en) File management apparatus and file management method
CN108509482A (zh) 问题分类方法、装置、计算机设备和存储介质
JP6583899B1 (ja) コンピュータ、データ要素提示方法、及びプログラム。
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
CN108446295A (zh) 信息检索方法、装置、计算机设备和存储介质
Tandel et al. Multi-document text summarization-a survey
Bahassine et al. Arabic text classification using new stemmer for feature selection and decision trees
US11520835B2 (en) Learning system, learning method, and program
US20190303437A1 (en) Status reporting with natural language processing risk assessment
CN105653553B (zh) 词权重生成方法和装置
Kadhim et al. Improving TF-IDF with singular value decomposition (SVD) for feature extraction on Twitter
Fatima et al. New graph-based text summarization method
CN114201620A (zh) 用于挖掘pdf文件中的pdf表格的方法、设备和介质
Akkuş et al. Categorization of turkish news documents with morphological analysis
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
JP4569179B2 (ja) ドキュメント検索装置
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
CN114936376A (zh) 文本定密方法及装置、非易失性存储介质、处理器
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2013061757A (ja) 文書分類方法
Taghva et al. Farsi searching and display technologies
Lamba et al. Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations
Çavusoğlu et al. Key Extraction in Table Form Documents: Insurance Policy as an Example

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190828

R150 Certificate of patent or registration of utility model

Ref document number: 6583899

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250