JP6583899B1

JP6583899B1 - コンピュータ、データ要素提示方法、及びプログラム。

Info

Publication number: JP6583899B1
Application number: JP2018189371A
Authority: JP
Inventors: 陵大田村; 井口　慎也; 慎也井口
Original assignee: Fronteo Inc
Current assignee: Fronteo Inc
Priority date: 2018-10-04
Filing date: 2018-10-04
Publication date: 2019-10-02
Anticipated expiration: 2038-10-04
Also published as: US11055357B2; US20200110780A1; JP2020057330A

Abstract

【課題】与えられたキー要素を補完するデータ要素のリストを効率的に生成することを目的とする。【解決手段】コンピュータ（１）は、メモリ（１１）とコントローラ（１２）とを備え、メモリ（１１）は、データを記憶し、コントローラ（１２）は、予め定められたデータ要素の近傍のデータ要素を共起データ要素として選択する選択処理と、各共起データ要素の重要度を算出する算出処理と、前記各共起データ要素を提示する提示処理と、を実行する。【選択図】図１

Description

本発明は、キー要素を補完するデータ要素からなるリストを生成するデータ要素提示方法に関する。また、そのようなデータ要素提示方法を実施するコンピュータ、及びそのようなコンピュータを動作させるためのプログラムに関する。

大量のデータ（例えば、文章データ）の中から特定の抽出条件を満たすデータを見つけ出すピックアップ作業では、しばしば、コンピュータによる１次スクリーニングと、人間（以下、「レビューア」と記載する）による２次スクリーニングとが必要になる。１次スクリーニングでは、大量のデータの中から、抽出条件に関連するデータ要素（以下、「キー要素」と記載する）を含むデータをコンピュータが抽出する。２次スクリーニングでは、コンピュータが抽出したデータの中から、その条件を満たすデータをレビューアが抽出する。例えば、企業の保有する大量のデータの中から、ディスカバリーのために裁判所に提出するデータを見つけ出す作業は、このようなピックアップ作業の一例である。

ＷＯ２０１４／０４９７０８

１次スクリーニングに用いるキー要素は、通常、大量のデータから抜き出されたサンプルデータに基づいてヒューリスティックに選択される。このため、１次スクリーニングに用いるキー要素が不足していることにより、抽出条件を満たすデータが２次スクリーニングの対象から漏れ、その結果、ピックアップ作業の精度が低下するという問題がしばしば生じる。このような問題を回避するためには、１次スクリーニングに用いるキー要素の不足を効率的に補う技術、例えば、与えられたキー要素を補完するデータ要素を提示する技術が必要になる。

本発明は、前記の問題に鑑みてなされたものであり、本発明の一態様は、与えられたキー要素を補完するデータ要素を提示する技術を実現することにある。

前記の課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備えたコンピュータであって、前記メモリは、複数のデータからなるデータ群を記憶し、前記コントローラは、前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも１つ選択する選択処理と、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する。

本発明の一態様によれば、与えられたキー要素を補完するデータ要素を提示することができる。

本発明の実施形態に係るコンピュータの構成を示すブロック図である。本発明の実施形態に係るデータ要素提示方法の流れを示すフローチャートである。図２に示すデータ要素提示方法の具体例を示す図である。図２に示すデータ要素提示方法の変形例を示す図である。（ａ）は、図３に示すデータ要素提示方法において算出される各共起データ要素の重要度を示すグラフであり、（ｂ）図４に示すデータ要素提示方法において算出される各共起データ要素の重要度を示すグラフである。

〔コンピュータの構成〕
本発明の一実施形態に係るコンピュータ１の構成について、図１を参照して説明する。図１は、コンピュータ１の構成を示すブロック図である。

コンピュータ１は、図１に示したように、バス１０を介して互いに接続された１又は複数のメモリ１１と、１又は複数のコントローラ１２と、ストレージ１３と、入出力インターフェース１４と、を備えている。メモリ１１としては、例えば、半導体ＲＡＭ（random access memory）が用いられる。コントローラ１２としては、例えば、ＣＰＵ（Central Processing Unit）が用いられる。ストレージ１３としては、例えば、ＨＤＤ（Hard Disk Drive）が用いられる。入出力インターフェース１４としては、例えば、ＵＳＢ（Universal Serial Bus）インターフェースが用いられる。

入出力インターフェース１４には、例えば、入力装置２及び出力装置３が接続される。入力装置２としては、例えば、キーボード及びマウスが用いられる。出力装置３としては、例えば、ディスプレイ及びプリンタが用いられる。なお、コンピュータ１は、ラップトップ型コンピュータのように、入力装置２として機能するキーボート及び出力装置３として機能するディスプレイを内蔵していてもよい。また、コンピュータ１は、スマートフォン又はタブレット型コンピュータのように、入力装置２及び出力装置３として機能するタッチパネルを内蔵していてもよい。さらに、コンピュータ１、入力装置２及び出力装置３は、一体として構成されていてもよいし、それぞれ別々の装置として分離されていてもよい。

ストレージ１３には、後述するデータ要素提示方法Ｓ１をコンピュータ１に実施させるためのプログラムＰが格納されている。コントローラ１２は、ストレージ１３に格納されたプログラムＰをメモリ１１上に展開し、メモリ１１上に展開されたプログラムＰに含まれる各命令を実行することによって、後述するデータ要素提示方法Ｓ１に含まれる各ステップを実行する。また、ストレージ１３には、後述するデータ要素提示方法Ｓ１においてコンピュータ１が参照するデータからなるデータ群Ｄが格納されている。コントローラ１２は、ストレージ１３に格納されたデータ群に含まれる各データをメモリ１１上に展開し、これを後述するデータ要素提示方法Ｓ１に含まれる各ステップにおいて参照する。

なお、コンピュータ１が内部記憶媒体であるストレージ１３に格納されているプログラムＰを用いて後述するデータ要素提示方法Ｓ１を実施する形態について説明したが、これに限定されない。すなわち、コンピュータ１が外部記録媒体に格納されているプログラムＰを用いて後述するデータ要素提示方法Ｓ１を実施する形態を採用してもよい。この場合、外部記録媒体としては、コンピュータ１が読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブル論理回路などを用いることができる。あるいは、コンピュータ１が通信ネットワークを介して取得したプログラムＰを用いて後述するデータ要素提示方法Ｓ１を実施する形態を採用してもよい。この場合、通信ネットワークとしては、例えば、インターネット、又はＬＡＮなどを用いることができる。

〔データ要素提示方法の流れ〕
次に、コンピュータ１が実施するデータ要素提示方法Ｓ１について、図２を参照して説明する。図２は、データ要素提示方法Ｓ１の流れを示すフローチャートである。

データ要素提示方法Ｓ１は、特定の抽出条件を満たすデータからなるデータ群Ｄに基づいて、与えられたキー要素を補完するデータ要素を提示する方法である。データ要素提示方法Ｓ１は、図２に示すように、記憶処理Ｓ１０と、フィルタ処理Ｓ１１と、選択処理Ｓ１２と、算出処理Ｓ１３と、ソート処理Ｓ１４と、提示処理Ｓ１５と、を含んでいる。

記憶処理Ｓ１０は、コンピュータ１のメモリ１１にデータ群Ｄを記憶させる処理である。記憶処理Ｓ１０は、コンピュータ１のコントローラ１２によって実行される。

データ群Ｄに含まれる各データは、データ要素の列である。本実施形態においては、データ群Ｄに含まれる各データとして、主に、形態素の列を含む文書データを想定する。文書データとしては、例えば、ＴＸＴデータ（プレインテキストデータ）、ＲＴＦデータ（リッチテキストデータ）、ＰＤＦデータ、ＤＯＣデータ、ＥＭＬデータが挙げられる。文書データの記述言語は、特定に限定されない。例えば、日本語であってもよいし、英語であってもよいし、その他の言語であってもよいし、それらが任意に混在していてもよい。文章データを構成する文字の文字種も、特に限定されない。例えば、漢字、数字、英字、平仮名、片仮名等が挙げられる。

フィルタ処理Ｓ１１は、データ群Ｄに含まれる各データから、キー要素になり得ないデータ要素として予め定められたデータ要素を除去する処理である。フィルタ処理Ｓ１１は、コンピュータ１のコントローラ１２によって実行される。

データ群Ｄに含まれる各データが文章データである場合、フィルタ処理Ｓ１１においては、例えば、固有名詞、数字、英文字（暫定名詞のみ）、未知語以外の形態素が文章データから除去される。この場合、フィルタ処理Ｓ１１が施された文章データは、固有名詞、数字、英文字、未知語の列となる。例えば、文章データが”休館日／は／土曜日／と／祝日／です／。／日曜日／の／開館／時間／は／１０／時／です／。”である場合、フィルタ処理Ｓ１１が施された文章データは、”休館日／土曜日／祝日／日曜日／開館／時間／１０／時”となる。

なお、フィルタ処理Ｓ１１に利用される形態素解析には、公知の形態素解析エンジンが適用され得る。また、形態素解析は、フィルタ処理Ｓ１１と同じくコンピュータ１のコントローラ１２が行ってもよく、コンピュータ１とは別のコンピュータが行ってもよい。

選択処理Ｓ１２は、フィルタ処理Ｓ１１が施された各データにおいてキー要素として与えられたデータ要素の近傍に存在するデータ要素を共起データ要素として選択する処理である。選択処理Ｓ１２は、フィルタ処理Ｓ１１を実行した後、コンピュータ１のコントローラ１２によって実行される。

ここで、あるデータ要素の近傍とは、例えば、そのデータ要素との距離が予め定められた閾値以下になるデータ要素の集合のことを指す。２つのデータ要素の間の距離は、例えば、これら２つのデータ要素の間に存在するデータ要素の個数に１を加えた自然数により定義される。例えば、フィルタ処理Ｓ１１が施された文章データが”休館日／土曜日／祝日／日曜日／開館／時間／１０／時”である場合、”休館日”と”土曜日”との間の距離は１となり、”休館日”と”祝日”との間の距離は２となる。また、例えば、近傍を定義する閾値が１である場合、”休館日”の近傍にある形態素は、”土曜日”となり、”土曜日”の近傍にある形態素は、”休館日”及び”祝日”となる。

算出処理Ｓ１３は、選択処理Ｓ１２にて選択された各共起データ要素の重要度を、データ群Ｄに含まれる各データにおける該共起データ要素の出現回数に基づいて算出する処理である。算出処理Ｓ１３は、選択処理Ｓ１２を実行した後に、コンピュータ１のコントローラ１２によって実行される。

算出処理Ｓ１３は、例えば、下記の処理（ａ）〜（ｃ）によって実現される。

処理（ａ）：コントローラ１２は、選択処理Ｓ１２にて選択された各共起データ要素ｔの、データ群Ｄに含まれる各データｄにおける出現回数ｎ_ｓ，ｄをカウントする。なお、データ群Ｄに含まれるデータの個数をＮとし、選択処理Ｓ１２にて選択された共起データ要素の個数をＭとすると、出現回数ｎ_ｓ，ｄは、Ｎ行Ｍ列の行列として表現される。以下、この行列のことを「共起行列」とも記載する。

処理（ｂ）：コントローラ１２は、選択処理Ｓ１２にて選択された各共起データ要素ｔの、データ群Ｄに含まれる各データｄにおける出現頻度ｔｆ（ｔ，ｄ）を算出する。出現頻度ｔｆ（ｔ，ｄ）は、下記の式（１）により定義される。ここで、Σ_ｓ∈ｄｎ_ｓ，ｄは、共起データ要素のデータｄにおける総出現回数を表す。

処理（ｃ）：コントローラ１２は、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、データ群Ｄに含まれるデータのうち、その共起データ要素を含むデータの個数ｄｆ（ｔ）をカウントする。

処理（ｄ）：コントローラ１２は、選択処理Ｓ１２にて選択された各共起データ要素ｔの重要度Ｗ（ｔ）を、処理（ｂ）にて算出した出現頻度ｔｆ（ｔ，ｄ）と、処理（ｃ）にして算出したデータ数ｄｆ（ｔ）と、に基づいて算出する。

処理（ｃ）にて算出される重要度Ｗ（ｔ）は、処理（ｂ）にて算出した出現頻度ｔｆ（ｔ，ｄ）が大きくなるほど大きくなり、処理（ｃ）にて算出したデータ数ｄｆ（ｔ）が大きくなるほど小さくなるものであることが好ましい。このような条件を満たす重要度Ｗ（ｔ）としては、例えば、下記の式（２）及び式（３）より定義されるＴＦ・ＩＤＦ（ｔ，ｄ）の和Σ_ｄ∈ＤＴＦ・ＩＤＦ（ｔ，ｄ）が挙げられる。

ソート処理Ｓ１４は、選択処理Ｓ１２にて選択された共起データ要素を、算出処理Ｓ１３にて算出された重要度Ｗ（ｔ）に応じた順序にソートする処理である。ソート処理Ｓ１４は、前記算出処理Ｓ１３を実行した後に、コンピュータ１のコントローラ１２によって実行される。この場合、コントローラ１２は、このリストを算出処理Ｓ１３にて算出された重要度Ｗ（ｔ）の降順にソートすることによって、ソートされた共起データ要素のリストを生成してもよい。ソートされた共起データ要素のリストは、例えば、与えられたキー要素を補完するデータ要素を重要度順に並べたリストである。

提示処理Ｓ１５は、選択処理Ｓ１２にて選択された共起データ要素を、算出処理Ｓ１３にて算出された重要度Ｗ（ｔ）に応じてユーザに提示する処理である。例えば、ソート処理Ｓ１４によって重要度に応じてソートされた共起データ要素を提示する。すなわち、提示処理Ｓ１５は、ソートされた共起データ要素のリストをユーザに提示する処理でもある。なお、提示処理Ｓ１５は、選択処理Ｓ１２にて選択された共起データ要素、またはソートされた共起データ要素のリストを、必ずしもすべて提示するわけではない。それらの一部を提示する場合もある。なお、提示処理Ｓ１５は、一例として、ソート処理Ｓ１４を実行した後、コンピュータ１のコントローラ１２によって実行される。

例えば、コントローラ１２は、ソート処理Ｓ１４にてソートされた共起データ要素のリストを、入出力インターフェース１４を介して出力装置３から出力する。例えば、出力装置３がディスプレイである場合には、このディスプレイに表示されたリストがユーザに提示されることになる。或いは、出力装置３がプリンタである場合には、このプリンタにより紙に印刷されたリストがユーザに提示されることになる。

このように、データ要素提示方法Ｓ１を実施することによって、コンピュータ１は、与えられたキー要素を補完可能なデータ要素を重要度順に並べてリスト化し、このリストをユーザに提示することができる。これにより、ユーザは、このリストに含まれるデータ要素を新たなキー要素として加えた状態で、所定の抽出条件を満たすデータを抽出するための１次スクリーニングをコンピュータに実施させることができる。したがって、コンピュータ１は、この抽出条件を満たすデータを１次スクリーニングで漏らす危険性を軽減させることができるため、前記抽出条件に該当するデータを見つけ出すピックアップ作業の精度を向上させることができる。

このように、データ要素提示方法Ｓ１を実施することによって、コンピュータ１は、データ群Ｄにおいて与えられたキー要素に共起する共起データ要素を、与えられたキー要素を補完するデータ要素としての重要度に応じて、ユーザに提示することができる。より具体的に言うと、コンピュータ１は、データ群Ｄにおいて与えられたキー要素に共起する共起データ要素を、与えられたキー要素を補完するデータ要素としての重要度順に並べてリスト化し、このリストをユーザに提示することができる。これにより、ユーザは、与えられたキー要素とこのリストに含まれるデータ要素とを新たなキー要素として、前記抽出条件を満たすデータを抽出するための１次スクリーニングをコンピュータに実施させることができる。これにより、コンピュータ１は、与えられたキー要素のみを用いる場合と比べて、より精度の高い（前記抽出条件を満たすデータが抽出結果から漏れるリスクがより小さい）１次スクリーニングを行うことができる。その結果、前記抽出条件に該当するデータを見つけ出すピックアップ作業の精度を向上させることができる。

ここで、コンピュータ１のコントローラ１２は、１次スクリーニングとして、（１）与えられたキー要素と、このリストに含まれるデータ要素の全部とを新たなキー要素とする抽出処理（キー要素を含むデータを抽出する処理）を実行してもよいし、（２）与えられたキー要素と、このリストに含まれるデータ要素の一部とを新たなキー要素とする抽出処理を実行してもよい。形態（２）を採用する場合、新たなキー要素とするデータ要素は、（２ａ）このリストからユーザが選択したデータ要素であってもよいし、（２ｂ）のリストから重要度に応じてコンピュータ１が選択したデータであってもよい。形態（２ａ）を採用する場合、コンピュータ１のコントローラ１２は、例えば、このリストに含まれるデータ要素の中から、新たなキー要素とするデータ要素を選択するユーザ操作を受け付ける受付処理を実行する。形態（２ｂ）を採用する場合、コンピュータ１のコントローラ１２は、例えば、このリストに含まれるデータ要素の中から、予め定められた個数のデータ要素を重要度の降順に選択する選択処理を実行する。なお、１次スクリーニングの対象とする母集団は、データ群Ｄであってもよいし、データ群Ｄ以外のデータ群（データの集合）であってもよい。また、１次スクリーニングは、抽出するデータの個数が予め定められたスクリーニングであってもよいし、抽出するデータの個数が予め定められていないスクリーニングであってもよい。

なお、キー要素を補完可能なデータ要素をユーザに提示することによって前記効果を奏する製品・サービスは、本実施形態に係るコンピュータ１が備えた構成の一部または全部を備えていると推定される。

〔データ要素提示方法の具体例〕
データ要素提示方法Ｓ１の具体例について、図３を参照して説明する。ここでは、記憶処理Ｓ１０にて５つの文章データＤｏｃ＿１〜Ｄｏｃ＿５からなるデータ群Ｄがメモリ１１に記憶された場合に、”Ａ社”というキーワード（キー要素）を補完する形態素（データ要素）のリストを生成する方法を説明する。

フィルタ処理Ｓ１１では、各文章データｄ（ｄ＝Ｄｏｃ＿１，Ｄｏｃ＿２，Ｄｏｃ＿３，Ｄｏｃ＿４，Ｄｏｃ＿５）から、固有名詞、数字、英文字、未知語以外の形態素が除去される。図３においては、これらの形態素が除去され、形態素”山口”、”くん”、”Ａ社”、”Ｚ社”、”Ｚ社”、”Ａ社”、・・・が残った文章データＤｏｃ＿１を例示している。なお、図３においては、データ群Ｄに含まれる全ての文章データをフィルタ処理Ｓ１１の対象としているが、これに限定されない。例えば、データ群Ｄに含まれる文章データのうち、”Ａ社”という形態素を含む文章データのみをフィルタ処理Ｓ１１の対象としてもよい。

選択処理Ｓ１２では、フィルタ処理Ｓ１１が施された各文章データｄにおいてキーワード”Ａ社”の近傍に存在する形態素が共起データ要素として選択される。図３においては、フィルタ処理Ｓ１１が施された文章データＤｏｃ＿１においてキーワード”Ａ社”の近傍に存在する形態素”くん”、”Ｚ社”が共起データ要素として選択される様子を示している。図３において、”くん”、”Ｚ社”以外の共起データ要素は、文章データＤｏｃ＿１以外の文章データから選択された共起データ要素である。なお、本具体例では、キーワード”Ａ社”からの距離が１以下の形態素を、キーワード”Ａ社”の近傍に存在する形態素と規定している。

算出処理Ｓ１３では、選択処理Ｓ１２にて選択された各共起データ要素ｔ（ｔ＝”注意”，”くん”，”Ｚ社”，”調査”，”新橋”）の重要度Ｗ（ｔ）を、各共起データ要素ｔの各文章データｄにおける出現回数ｎ_ｓ，ｄに基づいて算出する。

算出処理Ｓ１３は、以下のように行われる。

まず、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、データ群Ｄに含まれる各文章データｄにおける出現回数ｎ_ｓ，ｄがカウントされる。ここでは、下記の表１に示す出現回数ｎ_ｓ，ｄが得られたものとする。出現回数ｎ_ｓ，ｄを５行５列の行列と見做したものを、以下、共起行列ｎ_ｓ，ｄと呼ぶ。

次に、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、データ群Ｄに含まれる各文章データｄにおけるｔｆ（ｔ，ｄ）が、前記の式（１）に従って算出される。共起行列ｎ_ｓ，ｄが前記の表１のようになる場合、ｔｆ（ｔ，ｄ）は、下記の表２のように算出される。例えば、共起データ要素の文章データＤｏｃ＿１における総出現回数は、３回（”くん”が１回、”Ｚ社”が２回）であり、共起データ要素”Ｚ社”の文章データＤｏｃ＿１における出現回数ｎ_{Ｚ社、Doc_1}は、２回である。したがって、ｔｆ（Ｚ社、Ｄｏｃ＿１）は、２／３となる。

次に、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、ｄｆ（ｔ）がカウントされる。上述したように、ｄｆ（ｔ）は、データ群Ｄに含まれる文章データＤｏｃ＿１〜Ｄｏｃ＿５のうち、共起データ要素ｔを含む文章データの個数である。共起行列ｎ_ｓ，ｄが前記の表１のようになる場合、ｄｆ（ｔ）は、下記の表３のようにカウントされる。例えば、共起データ要素”Ｚ社”を含む文章データは、文章データＤｏｃ＿１、文章データＤｏｃ＿２、文章データＤｏｃ＿３、文章データＤｏｃ＿５の４個である。したがって、ｄｆ（Ｚ社）は、４となる。

次に、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、ｉｄｆ（ｔ）が前記の式（２）に従って算出される。共起行列ｎ_ｓ，ｄが前記の表１のようになる場合、ｉｄｆ（ｔ）は、下記の表４のように算出される。例えば、データ群Ｄに含まれる文章データは、文章データＤｏｃ＿１、文章データＤｏｃ＿２、文章データＤｏｃ＿３、文章データＤｏｃ＿４、文章データＤｏｃ＿５の５個であり、ｄｆ（Ｚ社）は、４である。したがって、ｉｄｆ（Ｚ社）は、ｌｏｇ（５／４）＋１≒１．０９７となる。

次に、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、各文章データｄにおけるＴＦ・ＩＤＦ（ｔ，ｄ）が、前記の式（３）に従って算出される。共起行列ｎ_ｓ，ｄが前記の表１のようになる場合、ＴＦ・ＩＤＦ（ｔ，ｄ）は、下記の表５のように算出される。例えば、ｔｆ（Ｚ社，Ｄｏｃ＿１）は、２／３であり、ｉｄｆ（Ｚ社）は、１．０９７である。したがって、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿１）は、２／３×１．０９７≒０．７３１３となる。

最後に、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、重要度Ｗ（ｔ）が算出される。上述したように、重要度Ｗ（ｔ）は、例えば、ＴＦ・ＩＤＦ（ｔ，ｄ）の和Σ_ｄ∈ＤＴＦ・ＩＤＦ（ｔ，ｄ）により定義される。共起行列ｎ_ｓ，ｄが前記の表１のようになる場合、重要度Ｗ（ｔ）は、下記の表６のように算出される。例えば、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿１）は、０．７３１３であり、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿２）は、０．１８２８であり、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿３）は、０．７３１３であり、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿４）は、０であり、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿５）は、０．２７４２である。したがって、重要度Ｗ（Ｚ社）は、０．７３１３＋０．１８２８＋０．７３１３＋０＋０．２７４２＝１．９１９６となる。

ソート処理Ｓ１４では、選択処理Ｓ１２にて選択された共起データ要素のリスト｛注意，くん，Ｚ社，調査，新橋｝が、算出処理Ｓ１３にて算出された重要度Ｗ（ｔ）に応じた順序にソートされる。重要度Ｗ（ｔ）が前記の表６のようになる場合、重要度Ｗ（ｔ）に応じた順序にソートされた共起データ要素のリストは、｛Ｚ社，注意，くん，新橋，調査｝となる。このとき、提示処理Ｓ１５は、例えば、「Ｚ社」のみをユーザに提示してもよいし、リストに含まれる共起データ要素のすべてをユーザに提示してもよい。

〔データ要素の近傍〕
本実施形態においては、データ要素提示方法Ｓ１を実施するためにコンピュータ１が参照するデータが、データ要素の列であることを仮定した。この仮定の下、本実施形態においては、２つのデータ要素の距離を、この列においてこれら２つのデータ要素の間に挟まれたデータ要素の個数に基づいて定義すると共に、キー要素の近傍を、この距離に基づいて定義した。しかしながら、データ要素の近傍の定義は、一次元配列のデータ要素の列内に限定して定義されるものではない。

データが、例えば、複数の行を含むテキストデータである場合、あるデータ要素の近傍を、そのデータ要素と上下左右で隣接するデータ要素の集合とも定義できる。すなわち、例えば、そのデータ要素を含む行の１行前に含まれ、略同じ列に含まれる形態素（上で隣接するデータ要素）、そのデータ要素を含む行の１行後に含まれ、略同じ列に含まれる形態素（下で隣接するデータ要素）、そのデータ要素を含む行と同じ行に含まれ、距離１の列に含まれる形態素（左右で隣接するデータ要素）を、そのデータ要素の近傍としてもよい。

さらに、データ要素の近傍の定義は、データ構造における物理的な距離に限定して定義されるものでもない。すなわち、データ要素の近傍は、例えば、異なるデータにおいて概念的に近いと定義されてもよい。例えば、あるデータが「Ａ社と例の案件について協議した結果」というテキストを含み、別のデータが「Ｂ社と例の案件について議論したところ」というテキストを含む場合、「Ａ社」と「Ｂ社」とは「案件について話し合った」という点において概念的に近い。すなわち、前述のように、データ構造における物理的な距離は近くないが、前後の文脈が略一致するため、両者は「近傍」にあると言える。前後の文脈を解析するために、例えば、フィルタ処理Ｓ１１において、構文解析（係り受け解析）が行われてもよい。

例えば、本発明に係るデータ要素提示方法を実施するためにコンピュータ１が参照するデータは、ＸＬＳデータなどの表計算データであってもよい。表計算データでは、シート内に複数のセルが行列状に配置される。２つのセルの距離Δは、例えば、一方のセルの位置をｉ行ｊ列とし、他方のセルの位置をｉ’行ｊ’列として、Δ＝｛（ｉ−ｉ’）^２＋（ｊ−ｊ’）^２｝^１／２により定義することができる。したがって、キー要素を含むセルからの距離Δが予め定められた閾値以内にあるセルに含まれるデータ要素を、キー要素の近傍に存在するデータ要素と見做すことで、上述したデータ要素提示方法Ｓ１を適用することができる。また、各セルが文章データ（形態素の列）を含む表計算データについては、キー要素と同じセルに含まれる形態素の中で、キー要素からの距離（例えば、キー要素との間に挟まれている形態素の個数＋１）が予め定められた閾値以下となる形態素を、キー要素の近傍に存在するデータ要素と見做してもよい。

或いは、本発明に係るデータ要素提示方法を実施するためにコンピュータ１が参照するデータは、ＰＰＴデータなどのプレゼンテーションデータであってもよい。プレゼンテーションデータでは、スライド内に複数のテキストボックスが自由に配置される。２つのテキストボックスの距離Δは、例えば、一方のテキストボックスの中心座標を（ｘ，ｙ）とし、他方のテキストボックスの中心座標を（ｘ’，ｙ’）として、Δ＝｛（ｘ−ｘ’）^２＋（ｙ−ｙ’）^２｝^１／２により定義することができる。したがって、キー要素を含むテキストボックスからの距離Δが予め定められた閾値以内にあるセルに含まれるデータ要素を、キー要素の近傍に存在するデータ要素と見做すことで、上述したデータ要素提示方法Ｓ１を適用することが可能である。また、各テキストボックスが文章データ（形態素の列）を含むプレゼンテーションデータについては、キー要素と同じテキストボックスに含まれる形態素の中で、キー要素からの距離（キー要素との間に挟まれている形態素の個数＋１）が予め定められた閾値以下となる形態素を、キー要素の近傍に存在するデータ要素と見做してもよい。

このように、「データ要素の近傍」は様々に定義可能である。すなわち、上記した定義はあくまでも一例に過ぎず、これらの変形例はすべて本発明の範囲に含まれる。

〔応用例１〕
また、本実施形態に係るデータ要素提示方法Ｓ１において、メタデータをさらに利用する例について説明する。コンピュータ１が参照するデータがＥＭＬデータである場合、本文を構成する文章データ以外のメタデータ（例えば、件名、宛先、日時など）をさらに利用することができる。例えば、件名を構成する文章データは、本文を構成する文章データと同様に処理することができる。

また、対象のＥＭＬデータのメールアドレス及び宛名等の「宛先」には、本文の文章とは別にタグを付し、データ要素提示方法Ｓ１の選択処理Ｓ１２において対象のＥＭＬデータ本文の文章から選択された複数の共起データ要素それぞれと、「宛先」とを紐付けておく。ソート処理Ｓ１４において、各共起データ要素からなるリストには、共起データ要素と、各共起データ要素に紐付けられた「宛先」とを表示する。これにより、ユーザは、各共起データ要素と関連がある「宛先」を確認することができる。また、ソート処理Ｓ１４においてリストに挙がった共起データ要素と紐づいている「宛先」の出現頻度に応じて、特定の「宛先」を重要とみなすことができる。

また、対象のＥＭＬデータの「日時」は、メールの送信日時又は受信日時である。対象のＥＭＬの「日時」には、本文の文章とは別にタグを付し、データ要素提示方法Ｓ１の選択処理Ｓ１２において対象のＥＭＬデータ本文の文章から選択された複数の共起データ要素それぞれと、「日時」とを紐付けておく。算出処理Ｓ１３において、各共起データ要素の出現回数又は出現頻度（ｔｆ）を算出する際に、コントローラ１２は、各共起データ要素を、各共起データ要素に紐付けられた日時の順序にソートしてもよい。また、各共起データ要素が出現する日時の範囲を示してもよい。例えば、ある共起データ要素が出現する日時の範囲に基づいて、キーワード検索する対象文書を絞り込んでもよい。

〔応用例２〕
本実施形態に係るデータ要素提示方法Ｓ１において、ユーザに文書データを提示する例について説明する。本実施形態において、コントローラ１２は、選択処理Ｓ１２にて選択された共起データ要素のみをユーザに提示するが、前記共起データ要素を含む文書データをユーザにさらに提示してもよい。例えば、コントローラ１２は、選択処理Ｓ１２にて選択された共起データ要素に、その属性等によってラベルをまず付与する。属性とは、例えば、「顧客」、「カルテル関係企業」、「カルテル関係者」等のように、その共起データ要素の性質及び分類等を示すものである。次に、コントローラ１２は、ラベルを付与された共起データ要素が多く含まれる文書データを検索し、該文書データをユーザに提示する。特定のラベルが付与された共起データ要素を多く含む文書データをユーザに提示されることで、ユーザは、ピックアップすべき文書データを効率的に見つけることができる。

また、特定のラベルが付与された共起データ要素を多く含む文書データには、共起データ要素として提示されたデータ要素以外にも、ユーザがピックアップすべきデータ要素が含まれている可能性が高い。これにより、ユーザは、提示された共起データ要素以外にもピックアップすべき重要なデータ要素を効率的に見つけることができる。この場合、ユーザが重要であると判断したデータ要素は、新たにキー要素として加えられ、スクリーニングにさらに利用されてもよい。

〔変形例〕
本実施形態においては、特定の抽出条件を満たすデータからなるデータ群Ｄを参照することによって、予め定められたキー要素を補完するデータ要素からなるリストを生成するデータ要素提示方法Ｓ１について説明したが、本発明はこれに限定されない。すなわち、抽出条件を満たすデータからなるデータ群Ｄに加えて、抽出条件を満たさないデータとからなるデータ群Ｄ’を参照することによって、予め定められたキー要素を補完するデータ要素のリストを生成するデータ要素提示方法（以下、データ要素提示方法Ｓ１’と記載する）についても、本発明の範疇に含まれる。ここでは、抽出条件を満たすデータを指定することを「タグを付ける」と呼ぶ。また、抽出条件を満たすデータを「タグ付データ」と呼び、抽出条件を満たさないデータを「タグ無データ」と呼ぶ。

本変形例に係るデータ要素提示方法Ｓ１’は、上述したデータ要素提示方法Ｓ１と同様、記憶処理Ｓ１０’と、フィルタ処理Ｓ１１’と、選択処理Ｓ１２’と、算出処理Ｓ１３’と、ソート処理Ｓ１４’と、提示処理Ｓ１５’と、を含んでいる。

記憶処理Ｓ１０’は、コンピュータ１のメモリ１１にデータ群Ｄ及びデータ群Ｄ’を記憶させる処理である。フィルタ処理Ｓ１１’は、データ群Ｄに含まれる各データから、キー要素になり得ないデータ要素として予め定められたデータ要素を除去する処理である。選択処理Ｓ１２’は、フィルタ処理Ｓ１１’が施された各データにおいてキー要素として与えられたデータ要素の近傍に存在するデータ要素を共起データ要素として選択する処理である。算出処理Ｓ１３’は、選択処理Ｓ１２’にて選択された各共起データ要素の重要度を、データ群Ｄ及びデータ群Ｄ’に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する処理である。ソート処理Ｓ１４’は、選択処理Ｓ１２’にて選択された共起データ要素からなるリストを、算出処理Ｓ１３’にて算出された重要度Ｗ（ｔ）に応じた順序にソートする処理である。提示処理Ｓ１５’は、ソート処理Ｓ１４’にてソートされた共起データ要素のリストを、与えられたキー要素を補完するデータ要素を重要度順に並べたリストとしてユーザに提示する処理である。

以下、本変形例に係るデータ要素提示方法Ｓ１’の具体例を、図４を参照して説明する。ここでは、記憶処理Ｓ１０’にて５つのタグ付データＤｏｃ＿１〜Ｄｏｃ＿５からなるデータ群Ｄと３つのタグ無データＤｏｃ＿６〜Ｄｏｃ＿８からなるデータ群Ｄ’とがメモリ１１に記憶された場合に、”Ａ社”というキーワード（キー要素）を補完する形態素（データ要素）のリストを生成する方法を説明する。

フィルタ処理Ｓ１１’では、各タグ付データｄ（ｄ＝Ｄｏｃ＿１，Ｄｏｃ＿２，Ｄｏｃ＿３，Ｄｏｃ＿４，Ｄｏｃ＿５）から、固有名詞、数字、英文字、未知語以外の形態素が除去される。図４においては、これらの形態素が除去され、形態素”山口”、”くん”、”Ａ社”、”Ｚ社”、”Ｚ社”、”Ａ社”、・・・が残った文章データＤｏｃ＿１を例示している。

選択処理Ｓ１２’では、フィルタ処理Ｓ１１’が施された各タグ付データｄにおいてキーワード”Ａ社”の近傍に存在する形態素が共起データ要素として選択される。図４においては、フィルタ処理Ｓ１１’が施された文章データＤｏｃ＿１においてキーワード”Ａ社”の近傍に存在する形態素”くん”、”Ｚ社”が共起データ要素として選択される様子を示している。図４において、”くん”、”Ｚ社”以外の共起データ要素は、文章データＤｏｃ＿１以外の文章データから選択された共起データ要素である。なお、本具体例では、キーワード”Ａ社”からの距離が１以下の形態素を、キーワード”Ａ社”の近傍に存在する形態素と規定している。

算出処理Ｓ１３’では、選択処理Ｓ１２’にて選択された各共起データ要素ｔ（ｔ＝”注意”，”くん”，”Ｚ社”，”調査”，”新橋”）の重要度Ｗ（ｔ）を、各共起データ要素ｔの各文章データｄにおける出現回数ｎ_ｓ，ｄに基づいて算出する。

算出処理Ｓ１３’は、以下のように行われる。

まず、選択処理Ｓ１２’にて選択された各共起データ要素ｔについて、データ群Ｄに含まれる各文章データｄにおける出現回数ｎ_ｓ，ｄがカウントされる。ここでの出現回数ｎ_ｓ，ｄに基づく共起行列ｎ_ｓ，ｄは、表１で示した共起行列と同じである。

また、本例においては、選択処理Ｓ１２にて選択された各共起データ要素ｔについて、、データ群Ｄ’に含まれる各タグ無データｄ’（ｄ’＝Ｄｏｃ＿６，Ｄｏｃ＿７，Ｄｏｃ＿８）における出現回数ｎ_ｓ，ｄ’もカウントされる。ここでは、例えば、タグ無データｄ’に対して、キーワード検索することで、出現回数をカウントできる。

次に、選択処理Ｓ１２’にて選択された各共起データ要素ｔについて、データ群Ｄに含まれる各文章データｄにおけるｔｆ（ｔ，ｄ）が、前記の式（１）に従って算出される。算出されたｔｆ（ｔ，ｄ）は、実施形態の表２に示す表と同じである。例えば、共起データ要素の文章データＤｏｃ＿１における総出現回数は、３回（”くん”が１回、”Ｚ社”が２回）であり、共起データ要素”くん”の文章データＤｏｃ＿１における出現回数ｎ_{くん、Doc_1}は、１回である。したがって、ｔｆ（くん、Ｄｏｃ＿１）は、１／３となる。

次に、選択処理Ｓ１２’にて選択された各共起データ要素ｔについて、ｄｆ（ｔ）がカウントされる。本例におけるｄｆ（ｔ）は、データ群Ｄに含まれる文章データＤｏｃ＿１〜Ｄｏｃ＿５及びデータ群Ｄ’に含まれる文章データＤｏｃ＿６〜Ｄｏｃ＿８のうち、共起データ要素ｔを含む文章データの個数である。共起データ要素ｔを含む文章データＤｏｃ＿６〜Ｄｏｃ＿８の個数を利用する点で実施形態とは異なる。例えば、”くん”が、Ｄｏｃ＿６〜Ｄｏｃ＿８にそれぞれ１回出現する場合、”くん”を含む文章データは、文章データＤｏｃ＿６、Ｄｏｃ＿７及びＤｏｃ＿８の３個である。文章データＤｏｃ＿１〜Ｄｏｃ＿５の結果と合わせて、”くん”のｄｆ（くん）は、７となる。本例のｄｆ（ｔ）は、下記表７のようにカウントされる。

次に、選択処理Ｓ１２’にて選択された各共起データ要素ｔについて、ｉｄｆ（ｔ）が前記の式（２）に従って算出される。ｄｆ（ｔ）が前記の表７のようになる場合、ｉｄｆ（ｔ）は、下記の表８のように算出される。例えば、データ群Ｄに含まれる文章データは、文章データＤｏｃ＿１、文章データＤｏｃ＿２、文章データＤｏｃ＿３、文章データＤｏｃ＿４、文章データＤｏｃ＿５の５個、データ群Ｄ’に含まれる文章データは、文章データＤｏｃ＿６、文章データＤｏｃ＿７、文章データＤｏｃ＿８の３個であり、全ての文章データの個数は８個である。また、ｄｆ（くん）は、７である。したがって、ｉｄｆ（くん）は、ｌｏｇ（８／７）＋１≒１．０５８となる。

次に、選択処理Ｓ１２’にて選択された各共起データ要素ｔについて、各文章データｄにおけるＴＦ・ＩＤＦ（ｔ，ｄ）が、前記の式（３）に従って算出される。共起行列ｎ_ｓ，ｄが前記の表１のようになる場合、ＴＦ・ＩＤＦ（ｔ，ｄ）は、下記の表９のように算出される。例えば、ｔｆ（くん，Ｄｏｃ＿１）は、１／３であり、ｉｄｆ（くん）は、１．０５８である。したがって、ＴＦ・ＩＤＦ（くん，Ｄｏｃ＿１）は、１／３×１．０５８≒０．３５２７となる。

最後に、選択処理Ｓ１２’にて選択された各共起データ要素ｔについて、重要度Ｗ（ｔ）が算出される。上述したように、重要度Ｗ（ｔ）は、例えば、ＴＦ・ＩＤＦ（ｔ，ｄ）の和Σ_ｄ∈ＤＴＦ・ＩＤＦ（ｔ，ｄ）により定義される。共起行列ｎ_ｓ，ｄが前記の表１のようになる場合、重要度Ｗ（ｔ）は、下記の表１０のように算出される。例えば、ＴＦ・ＩＤＦ（くん，Ｄｏｃ＿１）は、０．３５２７であり、ＴＦ・ＩＤＦ（くん，Ｄｏｃ＿２）は、０．１７６３であり、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿３）は、０．３５２７であり、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿４）は、０．３５２７であり、ＴＦ・ＩＤＦ（Ｚ社，Ｄｏｃ＿５）は、０である。したがって、重要度Ｗ（Ｚ社）は、０．３５２７＋０．１７６３＋０．３５２７＋０．３５２７＋０＝１．２３４３となる。

ソート処理Ｓ１４’では、選択処理Ｓ１２’にて選択された共起データ要素のリスト｛注意，くん，Ｚ社，調査，新橋｝が、算出処理Ｓ１３’にて算出された重要度Ｗ（ｔ）に応じた順序にソートされる。重要度Ｗ（ｔ）が前記の表１０のようになる場合、重要度Ｗ（ｔ）に応じた順序にソートされた共起データ要素のリストは、｛Ｚ社，くん，注意，新橋，調査｝となる。

実施形態でソートされた共起データ要素のリストは、｛Ｚ社，注意，くん，新橋，調査｝であったのに対し、本変形例でソートされた共起データ要素のリストは、｛Ｚ社，くん，注意，新橋，調査｝であった。

図５には、形態素毎に重要度Ｗを示した棒グラフを示す。図５の（ａ）はデータ群Ｄに含まれるタグ付データｄのみを用いて重要度Ｗを算出した場合、図５の（ｂ）は、データ群Ｄに含まれるタグ付データｄ及びデータ群Ｄ’に含まれるタグ無データｄ’を用いて重要度Ｗを算出した場合を示す。図５（ａ）は実施形態で算出した各形態素の重要度Ｗ、図５（ｂ）は本変形例で算出した各形態素の重要度Ｗに該当する。

図５に示すように、”Ｚ社”の重要度Ｗは、図５の（ａ）より図５の（ｂ）の方が大きい。これは、”Ｚ社”が、タグ付データｄにのみ出現し、タグ無データｄ’には出現しないことを反映している。すなわち、”Ｚ社”は、タグ付データｄにのみ出現する特徴的な形態素であると言える。

逆に、図５に示すように、”調査”の重要度Ｗは、図５の（ａ）より図５の（ｂ）の方が小さい。これは、”調査”が、タグ付データｄにも、タグ無データｄ’にも出現することを反映している。すなわち、”調査”は、タグ付データｄに限らず文書データ全体に渡って出現する特徴的ではない形態素であると言える。

このように、処理に利用する文書データの数を増やすことにより、形態素の重要度をより好適に算出し、重要な形態素を抽出することができる。

〔その他の応用例〕
前述のように、本発明に係るコンピュータ、データ要素提示方法、及びプログラムは、与えられたキー要素を補完するデータ要素を提示する具体例として説明したが、これに限定されない。本発明に係るコンピュータ、データ要素提示方法、及びプログラムは、大量のデータから特定のデータを抽出することを目的として、ユーザによって指定されたキー要素を用いてデータ群を絞り込む作業（いわゆる「情報検索」）に広く適用可能である。

〔まとめ〕
本発明の態様１に係るコンピュータは、メモリとコントローラとを備え、前記メモリは、複数のデータからなるデータ群を記憶し、前記コントローラは、前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として選択する選択処理と、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する。

本発明の態様２に係るコンピュータは、前記態様１において、前記コントローラが、前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じた順序にソートするソート処理を更に実行する。

本発明の態様３に係るコンピュータは、前記態様１又は２において、前記コントローラが、前記予め定められたデータ要素と、前記選択処理にて選択されたデータ要素の全部又は一部とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する抽出処理を更に実行する。

本発明の態様４に係るコンピュータは、前記態様３において、前記コントローラが、前記選択処理にて選択された共起データ要素から、キー要素とするデータ要素を選択するユーザ操作を受け付ける受付処理を更に実行し、前記抽出処理は、前記予め定められたデータ要素と、前記受付処理にてユーザにより選択されたデータ要素とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する。

本発明の態様５に係るコンピュータは、前記態様３又は４において、前記抽出処理が、前記選択処理にて選択されたデータ要素をキー要素に加えることによって、予め定められた抽出条件を満たすデータが抽出結果から漏れる可能性を軽減するための処理である。

本発明の態様６に係るコンピュータは、前記態様１〜５の何れか１つにおいて、前記算出処理は、前記選択処理にて選択された各共起データ要素について、（１）前記データ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、（２）前記データ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、（３）前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる。

本発明の態様７に係るコンピュータは、前記態様５において、前記メモリは、前記抽出条件を満たす複数のデータからなる第１のデータ群と前記抽出条件を満たさない複数のデータからなる第２のデータ群とを記憶し、前記算出処理は、前記選択処理にて選択された各共起データ要素について、（１）前記第１のデータ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、（２）前記第１のデータ群に含まれるデータ、及び、前記第２のデータ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、（３）前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる。

本発明の態様８に係るコンピュータは、前記態様１〜７の何れかにおいて、前記データは、テキスト又はテキストの集合であり、前記データ要素は、形態素である。

本発明の態様９に係るデータ要素提示方法は、メモリとコントローラとを備えたコンピュータを用いて、予め定められたデータ要素をユーザに提示するデータ要素提示方法であって、前記メモリが、複数のデータからなるデータ群を記憶させる記憶処理と、前記コントローラが、前記複数のデータからなるデータ群に含まれる各データにおいて、前記予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも１つ選択する選択処理と、前記コントローラが、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、前記コントローラが、前記選択処理にて選択された各共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を含む。

本発明の態様１０に係るプログラムは、前記態様１〜８の何れか１つに記載のコンピュータを動作させるためのプログラムであって、該コンピュータを前記各処理として機能させるためのプログラム。

〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１：コンピュータ、１１：メモリ、１２：コントローラ、Ｓ１：データ要素提示方法、Ｓ１０：記憶処理、Ｓ１１：フィルタ処理、Ｓ１２：選択処理、Ｓ１３：算出処理、Ｓ１４：ソート処理、Ｓ１５：提示処理

Claims

メモリとコントローラとを備えたコンピュータであって、
前記メモリは、複数のデータからなるデータ群を記憶し、
前記コントローラは、
前記データ群に含まれる各データにおいて、予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも１つ選択する選択処理と、
前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、
前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を実行する、
ことを特徴とするコンピュータ。
前記コントローラは、
前記選択処理にて選択された共起データ要素を、前記算出処理にて算出された重要度に応じた順序にソートするソート処理を更に実行する、
ことを特徴とする請求項１に記載のコンピュータ。
前記コントローラは、
前記予め定められたデータ要素と、前記選択処理にて選択されたデータ要素の全部又は一部とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する抽出処理を更に実行する、
ことを特徴とする請求項１又は２に記載のコンピュータ。
前記コントローラは、
前記選択処理にて選択された共起データ要素から、キー要素とするデータ要素を選択するユーザ操作を受け付ける受付処理を更に実行し、
前記抽出処理は、前記予め定められたデータ要素と、前記受付処理にてユーザにより選択されたデータ要素とをキー要素として、前記データ群又は前記データ群以外のデータ群から当該キー要素を含むデータを抽出する、
ことを特徴とする請求項３に記載のコンピュータ。
前記抽出処理は、前記選択処理にて選択されたデータ要素をキー要素に加えることによって、予め定められた抽出条件を満たすデータが抽出結果から漏れる可能性を軽減するための処理である、
ことを特徴とする請求項３又は４に記載のコンピュータ。
前記算出処理は、前記選択処理にて選択された各共起データ要素について、（１）前記データ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、（２）前記データ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、（３）前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる、
ことを特徴とする請求項１〜５の何れか１項に記載のコンピュータ。
前記メモリは、特定の条件を満たす複数のデータからなる第１のデータ群と前記特定の条件を満たさない複数のデータからなる第２のデータ群とを記憶し、
前記算出処理は、前記選択処理にて選択された各共起データ要素について、（１）前記第１のデータ群に含まれる各データにおける該共起データ要素の出現回数をカウントするステップと、（２）前記第１のデータ群に含まれるデータ、及び、前記第２のデータ群に含まれるデータのうち、該共起データ要素を含むデータの個数をカウントするステップと、（３）前記出現回数及び前記個数に基づいて該共起データ要素の重要度を算出するステップと、を含んでいる、
ことを特徴とする請求項１〜６の何れか１項に記載のコンピュータ。
前記データ要素は、形態素であり、
前記データは、形態素の列である、
ことを特徴とする請求項１〜７の何れか１項に記載のコンピュータ。
メモリとコントローラとを備えたコンピュータを用いて、予め定められたデータ要素を補完するデータ要素をユーザに提示するデータ要素提示方法であって、
前記メモリが、複数のデータからなるデータ群を記憶させる記憶処理と、
前記コントローラが、前記複数のデータからなるデータ群に含まれる各データにおいて、前記予め定められたデータ要素の近傍に存在するデータ要素を共起データ要素として少なくとも１つ選択する選択処理と、
前記コントローラが、前記選択処理にて選択された共起データ要素の重要度を、前記データ群に含まれる各データにおける該共起データ要素の出現回数に基づいて算出する算出処理と、
前記コントローラが、前記選択処理にて選択された各共起データ要素を、前記算出処理にて算出された重要度に応じてユーザに提示する提示処理と、を含む、
ことを特徴とするデータ要素提示方法。
請求項１〜８の何れか１項に記載のコンピュータを動作させるためのプログラムであって、該コンピュータに前記各処理を実行させるプログラム。