JP5853090B2 - Digital information analysis system, digital information analysis method, and digital information analysis program - Google Patents
Digital information analysis system, digital information analysis method, and digital information analysis program Download PDFInfo
- Publication number
- JP5853090B2 JP5853090B2 JP2014249088A JP2014249088A JP5853090B2 JP 5853090 B2 JP5853090 B2 JP 5853090B2 JP 2014249088 A JP2014249088 A JP 2014249088A JP 2014249088 A JP2014249088 A JP 2014249088A JP 5853090 B2 JP5853090 B2 JP 5853090B2
- Authority
- JP
- Japan
- Prior art keywords
- digital information
- unit
- combination
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 105
- 238000011156 evaluation Methods 0.000 claims description 9
- 235000005135 Micromeria juliana Nutrition 0.000 claims 1
- 241000246354 Satureja Species 0.000 claims 1
- 235000007315 Satureja hortensis Nutrition 0.000 claims 1
- 230000010365 information processing Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000000877 morphologic effect Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 238000012937 correction Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000020509 sex determination Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムに関する。特に、本発明は、デジタル情報に含まれる複数の単語の関連性に基づいて当該デジタル情報を分析するデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムに関する。 The present invention relates to a digital information analysis system, a digital information analysis method, and a digital information analysis program. In particular, the present invention relates to a digital information analysis system, a digital information analysis method, and a digital information analysis program that analyze the digital information based on the relevance of a plurality of words included in the digital information.
従来、記録されたデジタル情報を表示し、複数の文書ファイルごとに、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するシステムが知られている(例えば、特許文献1参照。)。特許文献1に記載のシステムによれば、特定の者に関係するデジタル文書情報のみを抽出し、訴訟の証拠資料作成のための作業負荷の軽減を図ることができる。 Conventionally, recorded digital information is displayed, and for each of a plurality of document files, user identification information indicating which of the users included in the user information is related is set and set. The specified user identification information is set to be recorded in the storage unit, at least one user is specified, and a document file in which the user identification information corresponding to the specified user is set is searched and displayed. There is known a system that sets incidental information indicating whether or not a retrieved document file is related to a lawsuit via the department, and outputs a document file related to a lawsuit based on the supplementary information. (For example, refer to Patent Document 1). According to the system described in Patent Document 1, it is possible to extract only digital document information related to a specific person, and to reduce the work load for preparing legal evidence material.
特許文献1に記載されているようなシステムにおいて、一の単語だけでなく、複数の単語に基づいて共起形態素を選定することで、更なる作業負荷の軽減を図ることができると考えられる。 In the system described in Patent Document 1, it is considered that the workload can be further reduced by selecting the co-occurrence morphemes based on not only one word but also a plurality of words.
したがって、本発明の目的は、複数の単語の関連性に基づいてデジタル情報を分析するデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムを提供することにある。 Accordingly, an object of the present invention is to provide a digital information analysis system, a digital information analysis method, and a digital information analysis program that analyze digital information based on the relevance of a plurality of words.
本発明は、上記目的を達成するため、情報処理装置に格納されている調査対象の対象デジタル情報を選択する対象選択部と、予め定められた特定事項と関連性を有する複数の単語の組合せそれぞれを格納する組合せ格納部と、対象選択部において選択された対象デジタル情報内に、組合せ格納部が格納している複数の単語の組合せが含まれているか否か検索する検索部と、対象デジタル情報内に組合せ格納部が格納している複数の単語の組合せの少なくとも1つが含まれている場合、形態素解析の結果に基づいて対象デジタル情報の予め定められた特定事項との関連性を判断する関連性判断部と、関連性判断部の判断結果を対象デジタル情報に対応づける判断結果設定部とを備えるデジタル情報分析システムが提供される。 In order to achieve the above object, the present invention provides a target selection unit that selects target digital information to be surveyed stored in an information processing device, and a combination of a plurality of words that are related to predetermined specific items. A combination storage unit that stores information, a search unit that searches whether the combination of a plurality of words stored in the combination storage unit is included in the target digital information selected by the target selection unit, and the target digital information If at least one of a plurality of combinations of words stored in the combination storage unit is included, the relationship for determining the relevance of the target digital information to a predetermined specific item based on the result of the morphological analysis A digital information analysis system is provided that includes a sex determination unit and a determination result setting unit that associates the determination result of the relevance determination unit with target digital information.
また、上記デジタル情報分析システムにおいて、判断結果設定部が複数の対象デジタル情報のそれぞれに対応づけた判断結果に基づいて、予め定められた特定情報に関連する対象デジタル情報を出力する出力部を更に備えることもできる。 In the digital information analysis system, an output unit that outputs target digital information related to predetermined specific information based on a determination result that the determination result setting unit associates with each of the plurality of target digital information. It can also be provided.
また、上記デジタル情報分析システムは、対象選択部が、情報処理装置から複数の対象デジタル情報を選択し、検索部が、複数の対象デジタル情報のそれぞれに複数の単語の組合せが含まれているか否かを検索し、関連性判断部が、複数の単語の組合せのそれぞれについて関連性を判断し、判断結果設定部が、判断結果を複数の対象デジタル情報のそれぞれに対応づけることもできる。 In the digital information analysis system, the target selection unit selects a plurality of target digital information from the information processing apparatus, and the search unit determines whether a plurality of word combinations are included in each of the plurality of target digital information. The relevance determination unit can determine relevance for each of a plurality of word combinations, and the determination result setting unit can associate the determination result with each of a plurality of target digital information.
また、上記デジタル情報分析システムは、関連性判断部が、対象デジタル情報を形態素解析する解析部と、解析部の解析結果に基づいて、単語の組合せを構成する一の単語と他の単語とのそれぞれに対象デジタル情報が示す文章内における位置情報を付与する位置情報付与部と、位置情報付与部が付与した一の単語の位置情報と他の単語の位置情報との間の距離を算出する距離算出部と、距離に基づいて、関連性を判断する判断部とを有することもできる。 Further, in the digital information analysis system, the relevancy determination unit includes an analysis unit that performs morphological analysis on the target digital information, and one word that constitutes a combination of words and another word based on the analysis result of the analysis unit. A distance for calculating the distance between the position information adding unit for adding position information in the sentence indicated by the target digital information and the position information of one word and the position information of another word given by the position information adding unit. It can also have a calculation part and the judgment part which judges relevance based on distance.
また、上記デジタル情報分析システムは、関連性判断部が、対象デジタル情報を形態素解析する解析部と、解析部の解析結果から得られる単語の組合せを構成する一の単語と他の単語との語順に基づいて、関連性を判断する語順判断部とを有することもできる。 Further, in the digital information analysis system, the relevancy determination unit includes an analysis unit that performs morphological analysis of the target digital information, and a word order of one word and another word that constitute a combination of words obtained from the analysis result of the analysis unit. And a word order determination unit for determining relevance based on the above.
また、上記デジタル情報分析システムは、関連性判断部が、対象デジタル情報を形態素解析する解析部と、解析部の解析結果から得られる単語の組合せを構成する一の単語と他の単語とが同一文中に存在するか否かを示す情報に基づいて関連性を判断するセンテンス判断部とを有することもできる。 Further, in the digital information analysis system, the relevancy determination unit is configured such that the analysis unit that performs morphological analysis of the target digital information, and one word that constitutes a combination of words obtained from the analysis result of the analysis unit is the same as another word It can also have a sentence judgment part which judges relevance based on information which shows whether it exists in a sentence.
また、上記デジタル情報分析システムは、予め定められた特定事項が、訴訟に関係することを示す情報であってもよい。 The digital information analysis system may be information indicating that a predetermined specific item is related to a lawsuit.
また、上記デジタル情報分析システムは、関連性判断部の判断結果を外部からの指示に応じて修正する修正部を更に備えることもできる。 The digital information analysis system may further include a correction unit that corrects the determination result of the relevance determination unit in accordance with an external instruction.
また、本発明は、上記目的を達成するため、情報処理装置に格納されている調査対象の対象デジタル情報を選択する対象選択段階と、対象選択部において選択された対象デジタル情報内に、予め定められた特定事項と関連性を有する複数の単語の組合せそれぞれを格納する組合せ格納部が格納している複数の単語の組合せが含まれているか否か検索する検索段階と、対象デジタル情報内に組合せ格納部が格納している複数の単語の組合せの少なくとも1つが含まれている場合、形態素解析の結果に基づいて対象デジタル情報の予め定められた特定事項との関連性を判断する関連性判断段階と、関連性判断段階における判断結果を対象デジタル情報に対応づける判断結果設定段階とを備えるデジタル情報分析方法が提供される。 In order to achieve the above object, the present invention provides a target selection step of selecting target digital information to be investigated stored in the information processing apparatus and target digital information selected by the target selection unit in advance. A search stage for searching whether or not a combination of a plurality of words stored in a combination storage unit that stores a plurality of combinations of a plurality of words having relevance to a specified item is included, and a combination in the target digital information A relevance determination step of determining relevance to a predetermined specific item of the target digital information based on a result of morphological analysis when at least one of a plurality of combinations of words stored in the storage unit is included And a determination result setting step of associating the determination result in the relevance determination step with the target digital information.
また、本発明は、上記目的を達成するため、デジタル情報分析プログラムであって、コンピュータに、情報処理装置に格納されている調査対象の対象デジタル情報を選択する対象選択機能と、対象選択機能が選択した対象デジタル情報内に、予め定められた特定事項と関連性を有する複数の単語の組合せのそれぞれを格納する組合せ格納部に格納されている複数の単語の組合せが含まれているか否か検索する検索機能と、対象デジタル情報内に組合せ格納部が格納している複数の単語の組合せの少なくとも1つが含まれている場合、形態素解析の結果に基づいて対象デジタル情報の予め定められた特定事項との関連性を判断する関連性判断機能と、関連性判断機能における判断結果を対象デジタル情報に対応づける判断結果設定機能とを実現させるデジタル情報分析プログラムが提供される。 In order to achieve the above object, the present invention is a digital information analysis program, comprising: a target selection function for selecting target digital information to be investigated stored in an information processing apparatus; and a target selection function. Search whether the selected target digital information includes a combination of a plurality of words stored in a combination storage unit that stores a plurality of combinations of a plurality of words having relevance to a predetermined specific item. And at least one combination of a plurality of words stored in the combination storage unit is included in the target digital information, a predetermined specific item of the target digital information based on the result of the morphological analysis A relevance judgment function that judges the relevance of the data and a judgment result setting function that associates the judgment results of the relevance judgment function with the target digital information Digital information analysis program that is provided.
本発明に係るデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムによれば、複数の単語の関連性に基づいてデジタル情報を分析するデジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラムを提供できる。 According to the digital information analysis system, the digital information analysis method, and the digital information analysis program according to the present invention, the digital information analysis system, the digital information analysis method, and the digital information that analyze digital information based on the relevance of a plurality of words An analysis program can be provided.
[実施の形態]
図1は、本実施の形態に係るデジタル情報分析システムの機能構成ブロックの一例を示す。
[Embodiment]
FIG. 1 shows an example of functional configuration blocks of the digital information analysis system according to the present embodiment.
(デジタル情報分析システム1の概要)
本実施の形態に係るデジタル情報分析システム1は、ユーザー端末若しくはサーバー等の情報処理装置2に格納されている複数のデジタル情報から予め定められた特定事項に関連性のあるデジタル情報を自動的に抽出するシステムである。ここで、予め定められた特定事項は、例えば、訴訟に関連することを示す情報である。そして、本実施の形態に係るデジタル情報分析システム1は、一例として、不正アクセスや機密情報漏洩等のコンピュータに関する犯罪や法的紛争が生じた場合に、犯罪や紛争の原因究明や捜査に要する電子的記録であるデジタル情報を収集及び分析し、その法的な証拠性を明らかにする技術であるフォレンジックに適用できる。
(Outline of digital information analysis system 1)
The digital information analysis system 1 according to the present embodiment automatically outputs digital information related to a predetermined specific item from a plurality of digital information stored in an
デジタル情報分析システム1は、予め定められた特定事項に関連する複数の単語の組合せに、予め定められた特定事項との関連性の高低を示すスコアを対応づけて格納する辞書としての組合せ格納部14を備える。そして、デジタル情報分析システム1は、情報処理装置2に格納されている任意のファイルが選択された場合に、形態素解析に基づいて当該ファイル内の文章を解析し、組合せ格納部14に格納されている複数の単語の組合せが選択されたファイルに含まれているか否かを判断する。
The digital information analysis system 1 includes a combination storage unit as a dictionary that stores a combination of a plurality of words related to a predetermined specific item and a score indicating the level of relevance with the predetermined specific item in association with each other. 14. Then, when an arbitrary file stored in the
デジタル情報分析システム1は、組合せ格納部14に格納されている単語の組合せが、選択されたファイルに含まれていると判断した場合、複数の単語それぞれの間の距離、複数の単語の語順、及び/又は複数の単語が同一文章に含まれているか否かに基づいて、予め定められた特定事項に対する当該ファイルの関連性の高低を判断する。そして、デジタル情報分析システム1は、判断結果を示す情報(すなわち、予め定められた特定事項に対する関連性の高低を示す情報)を選択されたファイルに対応づける。
When the digital information analysis system 1 determines that the combination of words stored in the
例えば、デジタル情報分析システム1は、複数の単語が2つの単語を含む場合、一方の単語と他方の単語との文章中における距離が予め定められた距離以下の場合であって当該単語の組合せに所定の有意性がある場合に、選択されたファイルの予め定められた特定事項との関連性が高いと判断する。また、デジタル情報分析システム1は、一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合であって当該単語の組合せに所定の有意性がある場合に、選択されたファイルの予め定められた特定事項との関連性が高いと判断する。更に、デジタル情報分析システム1は、一方の単語と他方の単語との距離が予め定められた距離以下の場合であっても、両単語が互いに異なる文中に存在する場合よりも両単語が同一文中に存在する場合に、当該単語の組合せに所定の有意性があると判断し、当該単語の組合せを含むファイルの予め定められた特定事項との関連性が高いと判断する。そして、デジタル情報分析システム1は、判断結果を示す情報を選択されたファイルに対応づける。 For example, in the digital information analysis system 1, when a plurality of words include two words, the distance between one word and the other word in a sentence is equal to or less than a predetermined distance, and the combination of the words When there is a predetermined significance, it is determined that the relevance of the selected file with a predetermined specific item is high. Also, the digital information analysis system 1 compares the part of speech of one word with the part of speech of the other word, and is a case where the parts of speech are arranged in a predetermined order in the sentence. If it is significant, it is determined that the relevance of the selected file with a predetermined specific item is high. Furthermore, the digital information analysis system 1 is configured such that even when the distance between one word and the other word is equal to or less than a predetermined distance, both words are in the same sentence than when both words exist in different sentences. If the word combination exists, it is determined that the word combination has a predetermined significance, and it is determined that the relevance to a predetermined specific item of the file including the word combination is high. Then, the digital information analysis system 1 associates information indicating the determination result with the selected file.
デジタル情報分析システム1は、同様の処理を情報処理装置2に格納されている他の複数のファイルに対しても実行する。次に、外部からの指示に応じ、デジタル情報分析システム1は、予め定められた特定事項に対する関連性の高いファイル、又は関連性の低いファイルを自動的に情報処理装置2から抽出する。そして、デジタル情報分析システム1は、抽出したファイルをユーザーに知覚可能に出力する。これにより、デジタル情報分析システム1は、予め定められた特定情報に関連性のある複数のファイルを、自動的に抽出及び出力することができる。
The digital information analysis system 1 executes the same process for a plurality of other files stored in the
なお、本実施の形態においてサーバーは、1つ以上のサーバーであって、複数のサーバーを含んで構成することもできる。例えば、サーバーは、メールサーバー、ファイルサーバー、又は文書管理サーバー等のデジタル情報を格納可能なサーバーを含む。また、ユーザー端末は、1つ以上のユーザー端末であって、複数のユーザー端末を含んで構成することもできる。例えば、ユーザー端末は、パーソナルコンピュータ、ノートパソコン、タブレットPC、又は携帯電話等の携帯通信端末等を含む。 In the present embodiment, the server is one or more servers, and may be configured to include a plurality of servers. For example, the server includes a server capable of storing digital information such as a mail server, a file server, or a document management server. Further, the user terminal is one or more user terminals, and can be configured to include a plurality of user terminals. For example, the user terminal includes a personal computer, a notebook computer, a tablet PC, or a mobile communication terminal such as a mobile phone.
(デジタル情報分析システム1の詳細)
図2は、情報処理装置の機能構成ブロックの一例を示し、図3は、本実施の形態に係るデジタル情報分析システムが備える関連性判断部の機能構成ブロックの一例を示す。また、図4は、本実施の形態に係る組合せ格納部のデータ構成の一例を示す。
(Details of digital information analysis system 1)
FIG. 2 shows an example of a functional configuration block of the information processing apparatus, and FIG. 3 shows an example of a functional configuration block of the relevance determination unit included in the digital information analysis system according to the present embodiment. FIG. 4 shows an example of the data configuration of the combination storage unit according to the present embodiment.
デジタル情報分析システム1は、情報処理装置2に格納されている調査対象のデジタル情報である対象デジタル情報を選択する指示を外部から受け付ける入力部10と、入力部10が受け付けた指示に応じて情報処理装置2から対象デジタル情報を選択して取得する対象選択部12と、予め定められた特定事項との関連性を有する複数の単語の組合せのそれぞれを格納する組合せ格納部14とを備える。
The digital information analysis system 1 includes an
また、デジタル情報分析システム1は、対象選択部12において選択された対象デジタル情報内に組合せ格納部14が格納している複数の単語の組合せが含まれているか否か検索する検索部16と、組合せ格納部14が格納している複数の単語の組合せの少なくとも1つが対象デジタル情報内に含まれている場合、形態素解析の結果に基づいて、予め定められた特定事項と対象デジタル情報との関連性を判断する関連性判断部18と、関連性判断部18の判断結果を対象デジタル情報に対応づける判断結果設定部20とを備える。
Further, the digital information analysis system 1 includes a
更に、デジタル情報分析システム1は、判断結果設定部20からの情報を格納する設定情報格納部22と、判断結果設定部20の設定、又は設定情報格納部22が格納している設定情報に基づいて、対象デジタル情報を出力する出力部24と、判断結果設定部20の設定結果を修正可能な修正部26とを備える。また、デジタル情報分析システム1は、複数のデジタル情報のそれぞれに含まれる複数の単語の組合せを抽出する抽出部28と、抽出部28において抽出された複数の単語の組合せのそれぞれに、予め定められた特定事項との関連性に応じたスコアを対応づけるスコア部30とを備えることもできる。
Further, the digital information analysis system 1 is based on a setting
(情報処理装置2)
情報処理装置2は、複数のデジタル情報を格納するデジタル情報格納部200と、デジタル情報を外部に出力する情報出力部210とを有する。デジタル情報格納部200は、文章情報を含む文書ファイル、テキストファイル、又は電子メール等の複数のデジタル情報を格納する。デジタル情報格納部200は、対象選択部12又は抽出部28からの働きかけに応じ、所定のデジタル情報を情報出力部210に供給する。情報出力部210は、デジタル情報格納部200が格納しているデジタル情報を対象選択部12又は抽出部28に供給する。なお、デジタル情報分析システム1と情報処理装置2とは、インターネット等の通信ネットワーク、又はLAN等の有線若しくは無線のネットワーク等により相互に通信可能に接続される。また、デジタル情報分析システム1は、情報処理装置2が有する機能及び構成の一部又は全部を備えることもできる。
(Information processing apparatus 2)
The
(入力部10)
入力部10は、情報処理装置2のデジタル情報格納部200に格納されている対象デジタル情報を選択する指示を外部から受け付ける。また、入力部10は、判断結果設定部20の判断結果を修正する指示を受け付けることもできる。更に入力部10は、予め定められた特定情報に関連する電子ファイルの出力指示を受け付ける。入力部10は、例えば、キーボード、マウス、タッチパネル、マイク等を介し、ユーザーからの指示を受け付ける。入力部10は、受け付けた対象デジタル情報を選択する指示を対象選択部12に供給する。また、入力部10は、受け付けた修正する指示を修正部26に供給する。
(Input unit 10)
The
(対象選択部12)
対象選択部12は、入力部10から受け付けた指示に応じ、デジタル情報格納部200に格納されている対象デジタル情報を選択すると共に選択した対象デジタル情報をデジタル情報格納部200から取得する。ここで、入力部10が受け付ける指示には、対象デジタル情報を特定する情報が含まれる。例えば、対象選択部12は、入力部10から対象デジタル情報を識別するファイル名、対象デジタル情報の作成日付、対象デジタル情報の更新日付、対象デジタル情報のファイルサイズ等を指定する情報を受け付ける。そして、対象選択部12は、当該指定する情報に合致する対象デジタル情報をデジタル情報格納部200から選択して取得する。また、対象選択部12は、情報処理装置2のデジタル情報格納部200から複数の対象デジタル情報を選択することもできる。対象選択部12は、取得した対象デジタル情報を検索部16に供給する。
(Target selection unit 12)
The
(組合せ格納部14)
組合せ格納部14は、予め定められた特定事項と関連性を有する複数の単語の組合せ、若しくは予め定められた特定事項と共に予め定められた特定事項との関連性に応じたスコアが対応づけられた複数の単語の組合せのそれぞれを格納する。ここで、単語とは、文法上、特定の意味及び機能を有する最小の言語単位である。また、複数の単語は、2つ以上の単語である。そして、スコアとは、複数の単語の組合せが予め定められた特定事項との関連性において、関連性の高低を示す数値である。数値が大きいほど、関連性が高いことを示す。
(Combination storage unit 14)
The
例えば、組合せ格納部14は、第1の単語と第2の単語との組合せに対応づけてスコアを格納する。図4の例においては、予め定められた特定事項が「侵害」に関連する情報である例を示す。この場合、組合せ格納部14に、第1の単語としての「デジタルカメラ」と第2の単語としての「侵害」との組合せに対応づけてスコア「5」が格納されている。また、組合せ格納部14に、第1の単語としての「急ピッチ」と第2の単語としての「予定」との組合せに対応づけてスコア「1」が格納されている。この場合、「デジタルカメラ」と「侵害」との単語の組合せの方が、「急ピッチ」と「予定」との単語の組合せよりも侵害に対する関連性が高いことを示す。
For example, the
組合せ格納部14は、検索部16からの働きかけに応じ、当該働きかけに対応する単語の組合せを検索部16に供給する。また、組合せ格納部14は、スコア部30から供給される単語の組合せと当該単語の組合せのスコアとを受け取って格納する。
In response to an action from the
(検索部16)
検索部16は、対象選択部12において選択された対象デジタル情報内に、組合せ格納部14が格納している複数の単語の組合せが含まれているか否か検索する。具体的に、検索部16は、対象デジタル情報としての電子ファイル内に、組合せ格納部14が格納している複数の単語の組合せを構成する各単語が含まれているか否か検索する。例えば、一の単語の組合せが第1の単語と第2の単語とで構成されている場合、検索部16は、第1の単語と第2の単語との双方が、電子ファイル内に含まれているか否か検索する。
(Search unit 16)
The
検索部16は、組合せ格納部14に格納されている複数の単語の組合せのうち少なくとも1つの単語の組合せが電子ファイルに含まれている場合、当該単語の組合せを含む電子ファイルを関連性判断部18に供給する。また、検索部16は、組合せ格納部14に格納されている複数の単語の組合せのいずれもが電子ファイルに含まれていない場合も、当該電子ファイルを関連性判断部18に供給することができる。
When at least one combination of a plurality of words stored in the
なお、検索部16は、対象選択部12から複数の対象デジタル情報を受け取った場合、複数の対象デジタル情報のそれぞれに複数の単語の組合せが含まれているか否かを検索することもできる。また、検索部16は、対象デジタル情報が電子メールである場合、電子メールのヘッダー情報を除く情報に複数の単語の組合せが含まれているか否かを検索することもできる。これにより、デジタル情報分析システム1は、予め定められた特定事項に関連することが実質的にはない情報(すなわち、ノイズになる情報)を排除できる。また、検索部16は、組合せ格納部14が格納しているスコアの値が予め定められた値以上のスコアに対応する単語の組合せに基づいて、対象デジタル情報内に含まれている単語の組合せを検索することもできる。
Note that, when the plurality of target digital information is received from the
(関連性判断部18)
関連性判断部18は、検索部16から受け取った電子ファイルに含まれている少なくとも1つの単語の組合せ、若しくは複数の単語の組合せのそれぞれを分析する。そして、関連性判断部18は、形態素解析に基づいて電子ファイルの予め定められた特定事項との関連性、すなわち、当該電子ファイルが予め定められた特定事項に関連するか否かを判断する。そして、関連性判断部18は、判断結果を示す情報を判断結果設定部20に供給する。
(Relevance determination unit 18)
The
具体的に、関連性判断部18は、対象デジタル情報を形態素解析する解析部180と、解析部180の解析結果に基づいて、単語の組合せを構成する一の単語と他の単語とのそれぞれに対象デジタル情報が示す文章内における位置情報を付与する位置情報付与部181と、位置情報付与部181が付与した一の単語の位置情報と他の単語の位置情報との間の文章内における距離を算出する距離算出部182と、距離算出部182が算出した距離に基づいて関連性を判断する判断部183とを有する。
Specifically, the
より具体的に、解析部180は、形態素解析に用いる文法ルールの集合体、及び品詞に関する情報を含む単語リスト等を含む解析用辞書を有する。そして、解析部180は、解析用辞書を用いて対象デジタル情報としての電子ファイルに含まれている文章を解析することで、当該文章を形態素ごとに分割する。解析部180は、解析結果を示す情報及び電子ファイルを位置情報付与部181、語順判断部184、及びセンテンス判断部185に供給する。なお、解析部180は、日本語、英語等の多言語に対応した解析用辞書を有することができる。
More specifically, the
続いて、位置情報付与部181は、解析部180が分割した各形態素に対し、各形態素の文章中における位置情報を付与する。例えば、解析部180が、一の文章を第1の形態素mと第2の形態素nとに分割した場合、位置情報付与部181は、第1の形態素mに位置情報としてPmを付与し、第2の形態素に位置情報としてPnを付与する。位置情報付与部181は、位置情報を付与した複数の形態素それぞれを示す情報を距離算出部182、語順判断部184、及びセンテンス判断部185に供給する。
Subsequently, the position
距離算出部182は、位置情報が付与された形態素を示す情報に基づいて、各形態素間の文章中における距離を算出する。距離算出部182は、各形態素に付与された位置情報の差分を算出することで距離を算出する。例えば、距離算出部182は、第1の形態素の位置情報Pmと第2の形態素の位置情報Pnとの差分の絶対値を距離dmnとして算出する。すなわち、距離算出部182は、式dmn=|Pm−Pn|を用いて距離を算出する。距離算出部182は、電子ファイル内の複数の単語の組合せのそれぞれについて距離を算出し、算出した距離を示す複数の情報を判断部183に供給する。
The
判断部183は、電子ファイルが複数の同一の単語の組合せを含んでいる場合、距離算出部182から受け取った複数の距離のうち、最短距離を示す単語の組合せを共起形態素として選定する。そして、判断部183は、選定した単語の組合せの有意性を、形態素の出現頻度が出現頻度の期待値からどの程度、乖離しているかを算出して評価する。具体的に判断部183は以下の式に基づいて評価値を算出する。
When the electronic file includes a plurality of combinations of the same words, the
ただし、Tm,nは、共起形態素の評価値であるT Scoreである。CTFm,nは、共起形態素の電子ファイル内における出現頻度である。E(CTFm,n)はCTFm,nの期待値である。TFm(n)は、形態素の出現頻度である。Nvは、電子ファイル内の動名詞の総数である。 Here, T m, n is T Score which is an evaluation value of the co-occurrence morpheme. CTF m, n is the appearance frequency of the co-occurrence morpheme in the electronic file. E (CTF m, n ) is an expected value of CTF m, n . TF m (n) is the appearance frequency of the morpheme. Nv is the total number of verbal nouns in the electronic file.
そして、判断部183は、複数の電子ファイルごとに予め定められた特定事項に対する関連性の高低を判断する。すなわち、判断部183は、上記式により得られる評価値の大きさに応じ、電子ファイルが、予め定められた特定事項に関連しているか、予め定められた特定事項に関連する可能性があるか、若しくは予め定められた特定事項に関連する可能性がないかを判断する。
Then, the
例えば、判断部183は、評価値が予め定められた値以上の値である場合に、共起形態素として選定した単語の組合せの有意性が高いと判断する。一例として、判断部183は、Tmnが「2」以上の場合に、有意性が高いと判断する。次に、判断部183は、有意性が高いと判断した単語の組合せを含む電子ファイルを、予め定められた特定事項に関連する電子ファイルであると判断する。そして、判断部183は、判断結果を示す情報を判断結果設定部20に供給する。
For example, the
同様に、判断部183は、評価値が予め定められた値の範囲内である場合に、共起形態素として選定した単語の組合せの有意性が中程度であると判断する。そして、判断部183は、有意性が中程度であると判断した単語の組合せを含む電子ファイルを、予め定められた特定事項に関連する可能性がある電子ファイルであると判断する。また、判断部183は、評価値が予め定められた値より小さい値である場合に、共起形態素として選定した単語の組合せの有意性が低いと判断する。そして、判断部183は、有意性が低いと判断した単語の組合せを含む電子ファイルを、予め定められた特定事項に関連する可能性がない電子ファイルであると判断する。
Similarly, the
また、判断部183は、複数の単語の組合せのそれぞれに対応する複数の距離を比較して、距離の長さに応じて複数の単語について序列を対応づけることもできる。例えば、判断部183は、単語間の距離が最も短い単語の組合せを共起形態素として選定することができる。更に、判断部183は、距離算出部182から受け取った距離と距離について予め定められた閾値とを比較して、閾値以下若しくは閾値を超える距離に対応する単語の組合せを共起形態素として選定することもできる。例えば、判断部183は、閾値以下の距離に対応する単語の組合せを共起形態素として選定することができる。
The
また、関連性判断部18は、解析部180の形態素解析の結果から得られる複数の単語の組合せを構成する一の単語と他の単語との語順及び/又は一の単語の品詞と他の単語の品詞との語順に基づいて、関連性を判断する語順判断部184を有する。例えば、語順判断部184は、複数の単語のそれぞれが一般名詞であるかサ変名詞であるかを判断すると共に、判断した結果得られる一般名詞Gnとサ変接続Vnとの位置関係を判断する。一例として、複数の単語の組合せのそれぞれが2つの単語を含み、一方の単語が一般名詞であり、他方の単語がサ変接続である場合を説明する。
In addition, the
この場合、語順判断部184は、複数の単語の組合せのそれぞれについて、文章中における一般名詞の位置PVnとサ変接続の位置PGnとを比較する。そして、語順判断部184は、一般名詞がサ変接続に比べて文章中の先の方に位置する場合(すなわち、PVn<PGnの場合)より、文章中における一般名詞の位置PVnがサ変接続の位置PGnより後に位置する場合(すなわち、PVn>PGnの場合)に、一般名詞の位置PVnがサ変接続の位置PGnより後に位置する単語の組合せを共起形態素として選定する。これにより、関連性判断部18は、日本語の主語と動詞との組合せ、及び目的語と動詞との組合せに応じて単語の組合せを共起形態素として選定できる。
In this case, the word
また、関連性判断部18は、解析部180の形態素解析の結果から得られる単語の組合せを構成する一の単語と他の単語とが同一文中に存在するか否かを示す情報に基づいて関連性を判断するセンテンス判断部185を有する。まず、センテンス判断部185は、電子ファイルに含まれている文章を、文の単位(すなわち、区切り)を検出することで、複数の文に分割する。例えば、センテンス判断部185は、全文検索機能(例えば、lucene−gosenで実現される機能(以下、「lucene−gosen機能」という。))を有する。センテンス判断部185は、lucene−gosen機能の文頭フラグを利用して、電子ファイルに含まれている文章を複数の文に分割する。
In addition, the
続いて、センテンス判断部185は、単語の組合せを構成する各単語が、同一文中に存在するか否かを判断する。そして、センテンス判断部185は、同一文中に存在する単語の組合せを共起形態素として選択する。なお、センテンス判断部185が有するlucene−gosen機能は、文頭フラグとして句点又は読点を用いることができる。
Subsequently, the
(判断結果設定部20)
判断結果設定部20は、関連性判断部18の判断結果を電子ファイルに対応づける。判断結果設定部20は、判断結果を複数の電子ファイルのそれぞれに対応づけることができる。例えば、判断結果設定部20は、予め定められた特定事項に関連する電子ファイルであると関連性判断部18が判断した判断結果を受け取った場合に「Hot」、予め定められた特定事項に関連する可能性があるという判断結果を受け取った場合に「Responsive」、予め定められた特定事項と関連する可能性がないという判断結果を受け取った場合に「Not Responsive」を示すタグを電子ファイルに付与する。判断結果設定部20は、判断結果を示すタグを付与した電子ファイルを設定情報格納部22及び/又は出力部24に供給する。
(Judgment result setting unit 20)
The determination
(設定情報格納部22)
設定情報格納部22は、電子ファイルを一意に識別する電子ファイル識別子に対応づけて、電子ファイルに対応づけられた判断結果設定部20の判断結果を示すタグを格納する。設定情報格納部22は、電子ファイル識別子に対応づけられているタグを出力部24に供給する。なお、設定情報格納部22は、電子ファイル識別子に対応づけて電子ファイルを格納してもよい。
(Setting information storage unit 22)
The setting
(出力部24)
出力部24は、判断結果設定部20が複数の対象デジタル情報としての電子ファイルのそれぞれに対応づけた判断結果に基づいて、予め定められた特定情報に関連する対象デジタル情報を出力する。例えば、出力部24は、外部からの指示に応じ、予め定められた特定情報に関連する電子ファイルをユーザーに知覚可能に出力する。また、出力部24は、設定情報格納部22が格納している電子ファイル識別子に対応づけられているタグを出力することもできる。更に、出力部24は、入力部10が外部から予め定められた特定情報に関連する電子ファイルの出力指示を受け取った場合、当該特定情報に関連することを示すタグが対応づけられた複数の電子ファイルを出力する。
(Output unit 24)
The
なお、出力部24は、デジタル情報を表示可能なディスプレイ等の表示装置、及び/又はデジタル情報を所定の媒体に出力するプリンター等の出力装置である。更に、出力部24は、出力する情報を磁気記録媒体、光学記録媒体等の記録媒体に記録することで出力することもできる。
The
(修正部26)
修正部26は、入力部10が外部から受け付けた修正指示を示す情報に応じ、関連性判断部18の判断結果を修正する。関連性判断部18は、修正部26による修正を施した判断結果を示す情報を判断結果設定部20に供給する。
(Correction unit 26)
The
(抽出部28)
抽出部28は、複数のサンプルファイルとしての複数のデジタル情報のそれぞれに含まれる複数の単語の組合せを抽出する。抽出部28は、抽出した複数の単語の組合せをスコア部30に供給する。なお、サンプルファイルとしては、例えば、特定の事件に依存している特定事項(一例として、特定の訴訟)と関連性が高いことが予め判明している電子ファイルが挙げられる。また、サンプルファイルとしては、特定の事件に依存しない特定事項(一例として、知財訴訟一般)と関連性が高いことが予め判明している電子ファイルも挙げられる。
(Extractor 28)
The
(スコア部30)
スコア部30は、抽出部28において抽出された複数の単語の組合せのそれぞれに、予め定められた特定事項との関連性に応じたスコアを対応づける。例えば、スコア部30は、予め定められた特定事項が「訴訟」である場合、「訴訟」に関連性の高い単語の組合せの電子ファイル内における出現頻度に応じ、当該電子ファイルにスコアを対応づける。スコア部30は、スコアを対応づけた単語の組合せを組合せ格納部14に供給して格納させる。
(Score part 30)
The
(デジタル情報分析方法の概要)
図5は、本発明の実施の形態に係るデジタル情報分析システムの処理の流れの一例を示す。
(Outline of digital information analysis method)
FIG. 5 shows an example of the processing flow of the digital information analysis system according to the embodiment of the present invention.
まず、対象選択部12は、情報処理装置2に格納されている複数の対象デジタル情報から、入力部10からの指示に対応する対象デジタル情報を選択して取得する(ステップ10。以下、ステップを「S」と表す。)。対象選択部12は、取得した対象デジタル情報を検索部16に供給する。検索部16は、対象選択部12から受け取った対象デジタル情報に含まれる文章に組合せ格納部14に格納されている単語の組合せが存在しているか否か検索する(S15)。検索部16は、検索結果を関連性判断部18に供給する。
First, the
関連性判断部18は、検索部16が検索した結果を検索部16から受け取り、対象デジタル情報に含まれる少なくとも一組の単語の組合せについて解析する。そして、関連性判断部18は、当該対象デジタル情報と予め定められた特定事項との関連性の高低を判断する(S20)。関連性判断部18は、判断結果を示す情報を判断結果設定部20に供給する。判断結果設定部20は、当該対象デジタル情報に関連性判断部18が判断した結果を示すタグとしての判断結果を対応づける(S25)。判断結果設定部20は、タグを対応づけた対象デジタル情報、又はタグを対応づけた対象デジタル情報を識別する識別子を出力部24に供給する。出力部24は、外部からの働きかけに応じ、所定のタグが対応づけられている対象デジタル情報を外部に出力する(S30)。
The
図6は、本発明の実施の形態に係るデジタル情報分析システムのハードウェア構成の一例を示す。 FIG. 6 shows an example of a hardware configuration of the digital information analysis system according to the embodiment of the present invention.
本実施の形態に係るデジタル情報分析システム1は、CPU1500と、グラフィックコントローラ1520と、RandomAccessMemory(RAM)、Read−OnlyMemory(ROM)及び/又はフラッシュROM等のメモリ1530と、データを記憶する記憶装置1540と、記録媒体からデータを読み込み及び/又は記録媒体にデータを書き込む読込み/書込み装置1545と、データを入力する入力装置1560と、外部の通信機器とデータを送受信する通信インターフェース1550と、CPU1500とグラフィックコントローラ1520とメモリ1530と記憶装置1540と読込み/書込み装置1545と入力装置1560と通信インターフェース1550とを互いに通信可能に接続するチップセット1510とを備える。
The digital information analysis system 1 according to the present embodiment includes a
チップセット1510は、メモリ1530と、メモリ1530にアクセスして所定の処理を実行するCPU1500と、外部の表示装置の表示を制御するグラフィックコントローラ1520とを相互に接続することにより、各構成要素間のデータの受渡しを実行する。CPU1500は、メモリ1530に格納されたプログラムに基づいて動作して、各構成要素を制御する。グラフィックコントローラ1520は、メモリ1530内に設けられたバッファ上に一時的に蓄えられた画像データに基づいて、画像を所定の表示装置に表示させる。
The chip set 1510 includes a
また、チップセット1510は、記憶装置1540と、読込み/書込み装置1545と、通信インターフェース1550とを接続する。記憶装置1540は、デジタル情報分析システム1のCPU1500が使用するプログラムとデータとを格納する。記憶装置1540は、例えば、フラッシュメモリである。読込み/書込み装置1545は、プログラム及び/又はデータを記憶している記憶媒体からプログラム及び/又はデータを読み取って、読み取ったプログラム及び/又はデータを記憶装置1540に格納する。読込み/書込み装置1545は、例えば、通信インターフェース1550を介し、インターネット上のサーバーから所定のプログラムを取得して、取得したプログラムを記憶装置1540に格納する。
The chip set 1510 connects a
通信インターフェース1550は、通信ネットワークを介して外部の装置とデータの送受信を実行する。また、通信インターフェース1550は、通信ネットワークが不通の場合、通信ネットワークを介さずに外部の装置とデータの送受信を実行することもできる。そして、キーボード、タブレット、マウス等の入力装置1560は、所定のインターフェースを介してチップセット1510と接続する。
The
記憶装置1540に格納されるデジタル情報分析システム1用のデジタル情報分析プログラムは、インターネット等の通信ネットワーク、又は磁気記録媒体、光学記録媒体等の記録媒体を介して記憶装置1540に提供される。そして、記憶装置1540に格納されたデジタル情報分析システム1用のプログラムは、CPU1500により実行される。
The digital information analysis program for the digital information analysis system 1 stored in the
本実施の形態に係るデジタル情報分析システム1により実行されるデジタル情報分析プログラムは、CPU1500に働きかけて、デジタル情報分析システム1を、図1から図5にかけて説明した入力部10、対象選択部12、組合せ格納部14、検索部16、関連性判断部18、判断結果設定部20、設定情報格納部22、出力部24、修正部26、抽出部28、スコア部30、解析部180、位置情報付与部181、距離算出部182、判断部183、語順判断部184、及びセンテンス判断部185として機能させる。
The digital information analysis program executed by the digital information analysis system 1 according to the present embodiment operates on the
(実施の形態の効果)
本実施の形態に係るデジタル情報分析システム1は、対象デジタル情報としての電子ファイルに含まれる共起形態素を、予め定められた特定事項に対する関連性の高い一の単語と他の単語との組合せだけでなく、電子ファイルに含まれる一の単語と他の単語との間の距離、語順、及び同一文中に存在するか否かに基づいて選定できる。そして、デジタル情報分析システム1は、選定した単語の組合せを用いて、情報処理装置2に格納されている複数の電子ファイルの中から、予め定められた特定事項に関連する電子ファイルを容易に選別できる。したがって、デジタル情報分析システム1は、予め定められた特定事項に関連する複数の電子ファイルを、確度よく自動的に抽出することができる。
(Effect of embodiment)
In the digital information analysis system 1 according to the present embodiment, the co-occurrence morphemes included in the electronic file as the target digital information are only combinations of one word highly related to a predetermined specific item and another word. Instead, the selection can be made based on the distance between one word and another word included in the electronic file, the word order, and whether or not they exist in the same sentence. Then, the digital information analysis system 1 easily selects an electronic file related to a predetermined specific item from a plurality of electronic files stored in the
以上、本発明の実施の形態を説明したが、上記に記載した実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。更に、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されるようにすることもできる。 While the embodiments of the present invention have been described above, the embodiments described above do not limit the invention according to the claims. In addition, it should be noted that not all combinations of features described in the embodiments are necessarily essential to the means for solving the problems of the invention. Furthermore, the technical elements of the above-described embodiments may be applied independently, or may be applied by being divided into a plurality of parts such as program parts and hardware parts.
1 デジタル情報分析システム
2 情報処理装置
10 入力部
12 対象選択部
14 組合せ格納部
16 検索部
18 関連性判断部
20 判断結果設定部
22 設定情報格納部
24 出力部
26 修正部
28 抽出部
30 スコア部
180 解析部
181 位置情報付与部
182 距離算出部
183 判断部
184 語順判断部
185 センテンス判断部
200 デジタル情報格納部
210 情報出力部
1500 CPU
1510 チップセット
1520 グラフィックコントローラ
1530 メモリ
1540 記憶装置
1545 読込み/書込み装置
1550 通信インターフェース
1560 入力装置
DESCRIPTION OF SYMBOLS 1 Digital
1510 chip set 1520
Claims (6)
前記組合せ格納部が格納している前記複数の単語の組合せが、対象デジタル情報内に含まれているか否か検索する検索部と、
前記複数の単語のうちの一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合に、前記複数の単語の組合せが前記対象デジタル情報内に出現する頻度を用いて、当該複数の単語の組合せを評価する判断部と、
前記判断部の評価結果に基づいて、前記対象デジタル情報と予め定められた特定事項との関連性を判断する関連性判断部と、
前記関連性判断部の判断結果を前記対象デジタル情報に対応づける判断結果設定部と、
を備えたデジタル情報分析システム。 A combination storage unit for storing each combination of a plurality of words;
A search unit for searching whether or not the combination of the plurality of words stored in the combination storage unit is included in the target digital information;
When the part of speech of one of the plurality of words is compared with the part of speech of the other word and the parts of speech are arranged in a predetermined order in the sentence, the combination of the plurality of words is the target digital A determination unit that evaluates the combination of the plurality of words using the frequency of occurrence in the information;
A relevance determination unit for determining relevance between the target digital information and a predetermined specific item based on the evaluation result of the determination unit;
A determination result setting unit that associates the determination result of the relevance determination unit with the target digital information ;
Digital information analysis system equipped with.
前記他方の単語は、サ変接続の動詞であり、
前記関連性判断部は、前記一方の単語と他方の単語との位置関係に応じて、日本語の主語と動詞との組合せ、または目的語と動詞との組合せを選定する
ことを特徴とする請求項1に記載のデジタル情報分析システム。 The one word is a general noun,
The other word is a verb of a savory connection,
The relevance determining unit selects a combination of a Japanese subject and a verb or a combination of an object and a verb according to a positional relationship between the one word and the other word. Item 2. The digital information analysis system according to Item 1 .
をさらに備えたことを特徴とする請求項1又は請求項2に記載のデジタル情報分析システム。 A sentence determination unit that determines whether one word constituting the word combination and another word are present in the same sentence, and selects a combination of words present in the same sentence as a co-occurrence morpheme; The digital information analysis system according to claim 1 or 2 , wherein
をさらに備えたことを特徴とする請求項1から3のいずれか一項に記載のデジタル情報分析システム。 The determination result setting unit further includes an output unit that outputs the target digital information related to the predetermined specific item based on the determination result associated with each of the plurality of target digital information. digital information analysis system according to any one of claims 1 to 3, characterized.
複数の単語の組合せそれぞれを所定の記憶装置に格納する組合せ格納ステップと、
前記組合せ格納ステップにおいて格納された前記複数の単語の組合せが、対象デジタル情報内に含まれているか否か検索する検索ステップと、
前記複数の単語のうちの一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合に、前記複数の単語の組合せが前記対象デジタル情報内に出現する頻度を用いて、当該複数の単語の組合せを評価する判断ステップと、
前記判断ステップにおける評価結果に基づいて、前記対象デジタル情報と予め定められた特定事項との関連性を判断する関連性判断ステップと、
前記関連性判断ステップにおける判断結果を前記対象デジタル情報に対応づける判断結果設定ステップと、
を実行するデジタル情報分析方法。 Computer
A combination storing step of storing each of a plurality of word combinations in a predetermined storage device ;
A search step of combining the plurality of words stored in the previous Symbol combination storing step, searches whether or not included in the Target digital information,
When the part of speech of one of the plurality of words is compared with the part of speech of the other word and the parts of speech are arranged in a predetermined order in the sentence, the combination of the plurality of words is the target digital A determination step of evaluating a combination of the plurality of words using the frequency of occurrence in the information;
A relevance determining step of determining relevance between the target digital information and a predetermined specific item based on the evaluation result in the determining step;
A determination result setting step for associating the determination result in the relevance determination step with the target digital information ;
Digital information analysis method of execution.
複数の単語の組合せそれぞれを所定の記憶装置に格納する組合せ格納機能と、
前記組合せ格納機能により格納された前記複数の単語の組合せが、対象デジタル情報内に含まれているか否か検索する検索機能と、
前記複数の単語のうちの一方の単語の品詞と他方の単語の品詞とを比較し、文章中で予め定められた順序で品詞が並んでいる場合に、前記複数の単語の組合せが前記対象デジタル情報内に出現する頻度を用いて、当該複数の単語の組合せを評価する判断機能と、
前記判断機能による評価結果に基づいて、前記対象デジタル情報と予め定められた特定事項との関連性を判断する関連性判断ステップと、
前記関連性判断機能による判断結果を前記対象デジタル情報に対応づける判断結果設定機能と、
を実現させるデジタル情報分析プログラム。 On the computer,
A combination storage function for storing each combination of a plurality of words in a predetermined storage device;
A search function for searching whether or not the combination of the plurality of words stored by the combination storage function is included in the target digital information;
When the part of speech of one of the plurality of words is compared with the part of speech of the other word and the parts of speech are arranged in a predetermined order in the sentence, the combination of the plurality of words is the target digital A judgment function for evaluating the combination of the plurality of words using the frequency of occurrence in the information;
A relevance determination step of determining relevance between the target digital information and a predetermined specific item based on an evaluation result by the determination function;
A determination result setting function for associating a determination result by the relevance determination function with the target digital information ;
Digital information analysis program that Ru is realized.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014249088A JP5853090B2 (en) | 2014-12-09 | 2014-12-09 | Digital information analysis system, digital information analysis method, and digital information analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014249088A JP5853090B2 (en) | 2014-12-09 | 2014-12-09 | Digital information analysis system, digital information analysis method, and digital information analysis program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013130766A Division JP5687312B2 (en) | 2013-06-21 | 2013-06-21 | Digital information analysis system, digital information analysis method, and digital information analysis program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015046196A JP2015046196A (en) | 2015-03-12 |
JP2015046196A5 JP2015046196A5 (en) | 2015-08-20 |
JP5853090B2 true JP5853090B2 (en) | 2016-02-09 |
Family
ID=52671579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014249088A Active JP5853090B2 (en) | 2014-12-09 | 2014-12-09 | Digital information analysis system, digital information analysis method, and digital information analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5853090B2 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3960530B2 (en) * | 2002-06-19 | 2007-08-15 | 株式会社日立製作所 | Text mining program, method and apparatus |
JP5477910B2 (en) * | 2010-08-20 | 2014-04-23 | Kddi株式会社 | Text search program, device, server and method using search keyword dictionary and dependency keyword dictionary |
-
2014
- 2014-12-09 JP JP2014249088A patent/JP5853090B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015046196A (en) | 2015-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783796B (en) | Predicting style break in text content | |
EP3113174A1 (en) | Method for building a speech feature library, method, apparatus, and device for speech synthesis | |
JP5687312B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
CN102955773B (en) | For identifying the method and system of chemical name in Chinese document | |
JP2007058605A5 (en) | ||
US9542474B2 (en) | Forensic system, forensic method, and forensic program | |
US8676791B2 (en) | Apparatus and methods for providing assistance in detecting mistranslation | |
JP2009271659A (en) | Information processing apparatus, information processing method, information processing program and recording medium | |
JP2009266045A (en) | Program for supporting preparation of test specification, and method of supporting preparation of test specification | |
JP5853090B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
JP5153390B2 (en) | Related word dictionary creation method and apparatus, and related word dictionary creation program | |
US20150363383A1 (en) | Input support system, input support method and input support program | |
JP2011054006A (en) | Image keyword determination system | |
JP2007241473A (en) | Information processing apparatus and method, program, and storage medium | |
JP2010102570A (en) | Information analyzing system, terminal device, server device, information analyzing method, and program | |
JP5876144B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
JP2017117109A (en) | Information processing device, information processing system, information retrieval method, and program | |
JP5686085B2 (en) | Sentence dictionary generation program, sentence example dictionary generation apparatus, and sentence example dictionary generation method | |
JP5741298B2 (en) | Dictionary creation device, dictionary creation method, and program | |
JP2008242515A (en) | Document preparation support device | |
CN113407684A (en) | Article originality checking method, article originality checking device and storage medium | |
JP2018180844A (en) | Document searching system | |
JP2007323250A (en) | System, processing method and program for registering in dictionary for kana-kanji conversion | |
JP2017059191A (en) | Correspondence analysis program, correspondence analysis method, and correspondence analysis device | |
JP2016173617A (en) | Information processing device and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150706 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150706 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20150706 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20151002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5853090 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |