JP2017010107A - Information processing device, information processing system and program - Google Patents

Information processing device, information processing system and program Download PDF

Info

Publication number
JP2017010107A
JP2017010107A JP2015121927A JP2015121927A JP2017010107A JP 2017010107 A JP2017010107 A JP 2017010107A JP 2015121927 A JP2015121927 A JP 2015121927A JP 2015121927 A JP2015121927 A JP 2015121927A JP 2017010107 A JP2017010107 A JP 2017010107A
Authority
JP
Japan
Prior art keywords
sentence
information processing
score
document
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015121927A
Other languages
Japanese (ja)
Other versions
JP6613644B2 (en
Inventor
和久 大野
Kazuhisa Ono
和久 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2015121927A priority Critical patent/JP6613644B2/en
Publication of JP2017010107A publication Critical patent/JP2017010107A/en
Application granted granted Critical
Publication of JP6613644B2 publication Critical patent/JP6613644B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processing device, an information processing system and a program for extracting a sentence suitable for a summary from a document.SOLUTION: A document analysis device 1 for evaluating a sentence included in a document includes a pre-processing part 12 for dividing the document into sentence units, an importance calculation part 14 for calculating an importance score showing the degree of importance of the sentence, a simplicity degree calculation part 15 for calculating a simplicity degree score showing the degree of simplicity of the sentence, and an evaluation score calculation part 16 for calculating an evaluation score being the important and simple degree of the sentence by multiplying the calculated importance score and the calculated simplicity degree score.SELECTED DRAWING: Figure 1

Description

本発明は、文書を処理対象にする情報処理装置、情報処理システム及びプログラムに関する。   The present invention relates to an information processing apparatus, an information processing system, and a program for processing a document.

文書の要約は、文書の要点をまとめたものであるため、その内容は、文書に対する利用者の理解を助けるものであることが望まれる。要約の生成方法として、利用者の利用履歴に基づいて利用者のレベルを決定し、文中の語の文書頻度に基づいて決定した文書の難易度と、利用者のレベルとから要約を生成するものが開示されている(例えば、特許文献1)。   Since the summary of a document is a summary of the main points of the document, it is desirable that the contents should help the user to understand the document. As a summary generation method, the user level is determined based on the user's usage history, and the summary is generated from the document difficulty level determined based on the document frequency of the words in the sentence and the user level. Is disclosed (for example, Patent Document 1).

特許第5201727号公報Japanese Patent No. 5201727

特許文献1に記載のものは、利用者の利用履歴を用いるため、初めて利用する利用者に対する考慮がされていなかった。また、文書を要約する手段は、従来技術を用いるものであった。   Since the thing of patent document 1 uses a user's utilization log | history, the consideration with respect to the user who uses for the first time was not considered. The means for summarizing the document uses the prior art.

そこで、本発明は、文書から要約に適した文を抽出するための情報処理装置、情報処理システム及びプログラムを提供することを目的とする。   Accordingly, an object of the present invention is to provide an information processing apparatus, an information processing system, and a program for extracting a sentence suitable for summarization from a document.

本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、文書に含まれる文を評価する情報処理装置であって、前記文書を文単位に分割する文分割手段と、文の重要度合いを示す重要度スコアを算出する重要度算出手段と、文の簡単度合いを示す簡単度スコアを算出する簡単度算出手段と、算出された前記重要度スコアと、前記簡単度スコアとを用いて、文の重要かつ簡単な度合いである評価スコアを算出する評価スコア算出手段と、を備える情報処理装置である。
第2の発明は、第1の発明の情報処理装置において、前記文書に含まれる全ての文に対して、前記評価スコア算出手段を実行する文書処理手段と、前記文書処理手段により算出された各文の前記評価スコアに基づいて、前記評価スコアが高い文を抽出する文抽出手段と、を備えること、を特徴とする情報処理装置である。
第3の発明は、第1の発明又は第2の発明の情報処理装置において、専門用語を見出し語にした辞書である専門用語辞書データベースの前記見出し語に対する参照数を記憶した見出し語参照数データベースに対して通信可能に接続され、前記簡単度算出手段は、前記見出し語参照数データベースを参照し、前記簡単度スコアを算出すること、を特徴とする情報処理装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの情報処理装置において、専門用語を見出し語にした辞書である専門用語辞書データベースに対して通信可能に接続され、前記簡単度算出手段は、前記文に、前記専門用語辞書データベースの前記見出し語を含む場合に、前記簡単度スコアに重み付けをすること、を特徴とする情報処理装置である。
第5の発明は、第4の発明の情報処理装置において、前記簡単度算出手段は、前記文に、前記専門用語辞書データベースの前記見出し語に含まれ、かつ、一般用語を見出し語にした一般用語辞書データベースに含まれる見出し語を含む場合には、前記重みを低くすること、を特徴とする情報処理装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの情報処理装置において、前記重要度算出手段は、前記文に、前記文書に含まれる出現頻度が高い名詞を含むほど、前記重要度スコアを高く算出すること、を特徴とする情報処理装置である。
第7の発明は、第3の発明から第5の発明までのいずれかの情報処理装置と、専門用語を見出し語にした辞書である専門用語辞書データベースの前記見出し語に対する参照数を記憶した見出し語参照数データベースと、を備えた情報処理システムである。
第8の発明は、第1の発明から第6の発明までのいずれかの情報処理装置としてコンピュータを機能させるためのプログラムである。
The present invention solves the above problems by the following means.
A first invention is an information processing apparatus that evaluates a sentence included in a document, a sentence dividing unit that divides the document into sentence units, and an importance calculating unit that calculates an importance score indicating the importance of the sentence An evaluation score that is an important and simple degree of the sentence using the degree-of-simple degree calculating means for calculating the degree of simplicity of the sentence, the importance degree score calculated, and the simplicity degree score. And an evaluation score calculating means for calculating.
According to a second invention, in the information processing apparatus of the first invention, a document processing unit that executes the evaluation score calculation unit for all sentences included in the document, and each of the documents calculated by the document processing unit An information processing apparatus comprising: a sentence extracting unit that extracts a sentence having a high evaluation score based on the evaluation score of a sentence.
According to a third aspect of the present invention, in the information processing apparatus of the first or second aspect, a headword reference number database storing the number of references to the headword in a technical term dictionary database that is a dictionary having technical terms as headwords. The simplicity calculating means refers to the headword reference number database, and calculates the simplicity score.
According to a fourth aspect of the present invention, in any one of the information processing apparatuses from the first aspect to the third aspect of the present invention, the information processing device is communicably connected to a technical term dictionary database that is a dictionary having technical terms as headwords. The degree calculation means is an information processing apparatus that weights the simplicity score when the sentence includes the headword of the technical term dictionary database.
According to a fifth aspect of the present invention, in the information processing apparatus of the fourth aspect of the present invention, the simplicity calculation means includes a general term that is included in the headword of the technical term dictionary database and the general term is a headword. The information processing apparatus is characterized in that the weight is reduced when a headword included in the term dictionary database is included.
In a sixth aspect of the information processing device according to any one of the first to fifth aspects of the invention, the importance calculation means includes a noun with a high appearance frequency included in the document, An information processing apparatus characterized by calculating the importance score high.
A seventh aspect of the present invention relates to any one of the information processing apparatuses from the third aspect to the fifth aspect of the present invention, and a headline that stores the number of references to the headword in a technical term dictionary database that is a dictionary having technical terms as headwords. An information processing system comprising a word reference number database.
An eighth invention is a program for causing a computer to function as any one of the information processing apparatuses from the first invention to the sixth invention.

本発明によれば、文書から要約に適した文を抽出するための情報処理装置、情報処理システム及びプログラムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the information processing apparatus, information processing system, and program for extracting the sentence suitable for the summary from a document can be provided.

本実施形態に係る文書解析システムの機能ブロックを示す図である。It is a figure which shows the functional block of the document analysis system which concerns on this embodiment. 本実施形態に係る文書解析システムでの各種DBの例を示す図である。It is a figure which shows the example of various DB in the document analysis system which concerns on this embodiment. 本実施形態に係る文書解析装置での文書解析処理を示すフローチャートである。It is a flowchart which shows the document analysis process in the document analysis apparatus which concerns on this embodiment. 本実施形態に係る端末での表示例を示す図である。It is a figure which shows the example of a display with the terminal which concerns on this embodiment. 本実施形態に係る文書解析装置で解析する対象文書の例を示す図である。It is a figure which shows the example of the object document analyzed with the document analysis apparatus which concerns on this embodiment. 本実施形態に係る文書解析装置での事前処理を示すフローチャートである。It is a flowchart which shows the pre-processing in the document analysis apparatus concerning this embodiment. 本実施形態に係る文書解析装置での事前処理を説明するための図である。It is a figure for demonstrating the pre-processing in the document analysis apparatus which concerns on this embodiment. 本実施形態に係る文書解析装置でのスコア算出処理を示すフローチャートである。It is a flowchart which shows the score calculation process in the document analysis apparatus which concerns on this embodiment. 本実施形態に係る文書解析装置でのスコア算出処理及び評価対象文の並び替えを説明するための図である。It is a figure for demonstrating the score calculation process and rearrangement of the evaluation object sentence in the document analysis apparatus concerning this embodiment.

以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<文書解析システム100の全体構成>
図1は、本実施形態に係る文書解析システム100の機能ブロックを示す図である。
図2は、本実施形態に係る文書解析システム100での各種DBの例を示す図である。

図1に示すように、文書解析システム100(情報処理システム)は、文書解析装置1(情報処理装置)と、専門用語辞書DB(データベース)4と、見出し語参照数DB5と、一般用語辞書DB6と、端末8とが、通信ネットワークNを介して接続されている。
文書解析システム100は、端末8が指定した対象文書から、重要かつ簡単な文を抽出して端末8に出力するシステムである。
DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(Embodiment)
<Overall Configuration of Document Analysis System 100>
FIG. 1 is a diagram showing functional blocks of a document analysis system 100 according to the present embodiment.
FIG. 2 is a diagram illustrating examples of various DBs in the document analysis system 100 according to the present embodiment.

As shown in FIG. 1, the document analysis system 100 (information processing system) includes a document analysis device 1 (information processing device), a technical term dictionary DB (database) 4, a headword reference number DB 5, and a general term dictionary DB 6. And the terminal 8 are connected via a communication network N.
The document analysis system 100 is a system that extracts an important and simple sentence from a target document designated by the terminal 8 and outputs the sentence to the terminal 8.

<文書解析装置1>
文書解析装置1は、対象文書を受け付けて、対象文書から要約に適する重要かつ簡単な文を抽出する装置である。
文書解析装置1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
制御部10は、文書解析装置1の全体を制御するCPU(中央処理装置)である。制御部10は、記憶部20に記憶されているOS(オペレーティングシステム)や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部10は、文書受付部11と、事前処理部12(文分割手段)と、文処理部13(文書処理手段)と、重要度算出部14(重要度算出手段)と、簡単度算出部15(簡単度算出手段)と、評価スコア算出部16(評価スコア算出手段)と、文出力部17(文抽出手段)とを備える。
<Document Analysis Device 1>
The document analysis device 1 is a device that receives a target document and extracts an important and simple sentence suitable for summarization from the target document.
The document analysis apparatus 1 includes a control unit 10, a storage unit 20, and a communication interface unit 29.
The control unit 10 is a CPU (Central Processing Unit) that controls the entire document analysis apparatus 1. The control unit 10 executes various functions in cooperation with the hardware described above by appropriately reading and executing an OS (operating system) and various application programs stored in the storage unit 20.
The control unit 10 includes a document receiving unit 11, a preprocessing unit 12 (sentence dividing unit), a sentence processing unit 13 (document processing unit), an importance level calculating unit 14 (importance level calculating unit), and a simplicity level calculating unit. 15 (simpleness calculating means), an evaluation score calculating section 16 (evaluation score calculating means), and a sentence output section 17 (sentence extracting means).

文書受付部11は、対象文書を受け付ける制御部である。文書受付部11は、例えば、端末8から対象文書を受信する。
ここで、対象文書は、複数の文を含む。そして、以下では、抽出する文の単位を、段落に含む文として説明する。つまり、1つの段落に含む文を、評価対象文にする。そのため、評価対象文は、句点で区切られた1つの文の場合もあるし、句点で区切られた複数の文の場合もある。
事前処理部12は、対象文書に対して文処理部13による処理を行うにあたっての事前処理を行う制御部である。
文処理部13は、対象文書の各評価対象文に関して、評価スコアを算出する処理を行う制御部である。
重要度算出部14は、1つの評価対象文の重要度合いを示す重要度スコアを算出する制御部である。
簡単度算出部15は、1つの評価対象文の簡単度合いを示す簡単度スコアを算出する制御部である。
評価スコア算出部16は、重要度スコアと簡単度スコアとから、1つの評価対象文の重要かつ簡単な度合いを示す評価スコアを算出する制御部である。
文出力部17は、評価スコアの高い評価対象文を、対象文書から抽出して端末8に対して出力する制御部である。
なお、これらの各機能の詳細については、後述する。
The document receiving unit 11 is a control unit that receives a target document. For example, the document receiving unit 11 receives the target document from the terminal 8.
Here, the target document includes a plurality of sentences. In the following description, a unit of a sentence to be extracted is described as a sentence included in a paragraph. That is, a sentence included in one paragraph is set as an evaluation target sentence. For this reason, the evaluation target sentence may be a single sentence separated by punctuation marks or a plurality of sentences separated by punctuation marks.
The pre-processing unit 12 is a control unit that performs pre-processing when the sentence processing unit 13 performs processing on the target document.
The sentence processing unit 13 is a control unit that performs processing for calculating an evaluation score for each evaluation target sentence of the target document.
The importance calculation unit 14 is a control unit that calculates an importance score indicating the importance of one evaluation target sentence.
The simplicity calculator 15 is a controller that calculates a simplicity score indicating the simplicity of one evaluation target sentence.
The evaluation score calculation unit 16 is a control unit that calculates an evaluation score indicating an important and simple degree of one evaluation target sentence from the importance score and the simplicity score.
The sentence output unit 17 is a control unit that extracts an evaluation target sentence with a high evaluation score from the target document and outputs it to the terminal 8.
Details of these functions will be described later.

記憶部20は、文書解析装置1の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
なお、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、文書解析装置1は、制御部10、記憶部20等を備えた情報処理装置であり、コンピュータの概念に含まれる。
記憶部20は、プログラム記憶部21と、文書記憶部22とを備える。
プログラム記憶部21は、プログラムを記憶するための記憶領域である。プログラム記憶部21は、文書解析プログラム21aを記憶している。
文書解析プログラム21aは、制御部10の各種機能を実行するためのプログラムである。
文書記憶部22は、端末8から受け付けた対象文書を記憶するための記憶領域である。
なお、記憶部20は、対象文書の評価スコア算出のために一時的に使用する一時記憶領域等も有する。
通信インタフェース部29は、通信ネットワークNを介して各種DBや端末8との通信を行うためのインタフェースである。
The storage unit 20 is a storage device such as a hard disk or a semiconductor memory element for storing programs, data, and the like necessary for the operation of the document analysis apparatus 1.
The computer refers to an information processing apparatus including a control unit, a storage device, and the like, and the document analysis apparatus 1 is an information processing device including the control unit 10, the storage unit 20 and the like, and is included in the concept of a computer. .
The storage unit 20 includes a program storage unit 21 and a document storage unit 22.
The program storage unit 21 is a storage area for storing a program. The program storage unit 21 stores a document analysis program 21a.
The document analysis program 21 a is a program for executing various functions of the control unit 10.
The document storage unit 22 is a storage area for storing the target document received from the terminal 8.
The storage unit 20 also includes a temporary storage area that is temporarily used for calculating the evaluation score of the target document.
The communication interface unit 29 is an interface for communicating with various DBs and the terminal 8 via the communication network N.

なお、文書解析装置1を構成するハードウェアの数に制限はない。必要に応じて、1又は複数で構成してもよい。また、文書解析装置1のハードウェアは、必要に応じてWebサーバ、DB(データベース)サーバ、アプリケーションサーバ等の各種サーバを含んで構成してもよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。   Note that there is no limit on the number of hardware constituting the document analysis apparatus 1. You may comprise by 1 or multiple as needed. Further, the hardware of the document analysis apparatus 1 may be configured to include various servers such as a Web server, a DB (database) server, and an application server as necessary, You may comprise with another server.

<DB>
専門用語辞書DB4は、多数の専門用語を収録した辞書のDBである。図2(A)に示すように、専門用語辞書DB4は、専門用語と、その語の意味、用法、その示す内容等とを対応付けたDBである。専門用語辞書DB4は、図1では、1つ記載しているが、分野ごとに複数の専門用語辞書DB4を有してもよい。
見出し語参照数DB5は、専門用語辞書DB4のアクセスログを記憶するDBである。図2(B)に示すように、見出し語参照数DB5は、専門用語辞書DB4の専門用語と、その専門用語を参照した参照数とを対応付けて記憶する。専門用語を調べたいユーザが、端末8を用いて専門用語辞書DB4にアクセスして専門用語の言葉の意味を調べた場合に、アクセスした専門用語に対応する見出し語参照数DB5の参照数には、1が加算される。
一般用語辞書DB6は、多数の語を収録した辞書のDBである。一般用語辞書DB6は、例えば、国語辞典のDBであってもよいし、形態素解析辞書のDBであってもよい。また、一般用語辞書DB6は、一部の一般化した専門用語を見出し語に含んでもよい。図2(C)に示すように、専門用語辞書DB4は、一般用語辞書DB6と同じ構造になっているが、収録する語が各々異なる。
<DB>
The technical term dictionary DB 4 is a dictionary DB storing a large number of technical terms. As shown in FIG. 2A, the technical term dictionary DB 4 is a DB in which technical terms are associated with the meanings, usages, and contents indicated. Although only one technical term dictionary DB4 is shown in FIG. 1, a plurality of technical term dictionaries DB4 may be provided for each field.
The headword reference number DB 5 is a DB that stores an access log of the technical term dictionary DB 4. As shown in FIG. 2B, the headword reference number DB 5 stores the technical terms in the technical term dictionary DB 4 and the reference numbers referring to the technical terms in association with each other. When a user who wants to check a technical term accesses the technical term dictionary DB 4 using the terminal 8 and examines the meaning of the term of the technical term, the reference number of the headword reference number DB 5 corresponding to the accessed technical term includes 1 is added.
The general term dictionary DB 6 is a dictionary DB containing a large number of words. The general term dictionary DB 6 may be, for example, a Japanese dictionary DB or a morphological analysis dictionary DB. Further, the general term dictionary DB 6 may include some generalized technical terms in the headword. As shown in FIG. 2C, the technical term dictionary DB 4 has the same structure as the general term dictionary DB 6, but the recorded words are different from each other.

<端末8>
図1に戻り、端末8は、ユーザUが使用する端末である。端末8は、例えば、パーソナルコンピュータ(PC)や、タブレット端末等で構成することができる。図示していないが、端末8は、制御部、記憶部、表示部等を備える。
通信ネットワークNは、文書解析装置1と、各種DB4〜6と、端末8との間のネットワークであり、例えば、インターネット回線等の通信網である。
<Terminal 8>
Returning to FIG. 1, the terminal 8 is a terminal used by the user U. The terminal 8 can be configured by, for example, a personal computer (PC), a tablet terminal, or the like. Although not shown, the terminal 8 includes a control unit, a storage unit, a display unit, and the like.
The communication network N is a network between the document analysis apparatus 1, the various DBs 4 to 6, and the terminal 8, and is a communication network such as an Internet line, for example.

<文書解析処理>
次に、文書解析装置1で行う処理について説明する。
図3は、本実施形態に係る文書解析装置1での文書解析処理を示すフローチャートである。
図4は、本実施形態に係る端末8での表示例を示す図である。
図5は、本実施形態に係る文書解析装置1で解析する対象文書30の例を示す図である。
図6は、本実施形態に係る文書解析装置1での事前処理を示すフローチャートである。
図7は、本実施形態に係る文書解析装置1での事前処理を説明するための図である。
図8は、本実施形態に係る文書解析装置1でのスコア算出処理を示すフローチャートである。
図9は、本実施形態に係る文書解析装置1でのスコア算出処理及び評価対象文の並び替えを説明するための図である。
<Document analysis processing>
Next, processing performed by the document analysis apparatus 1 will be described.
FIG. 3 is a flowchart showing document analysis processing in the document analysis apparatus 1 according to the present embodiment.
FIG. 4 is a diagram illustrating a display example on the terminal 8 according to the present embodiment.
FIG. 5 is a diagram illustrating an example of the target document 30 to be analyzed by the document analysis apparatus 1 according to the present embodiment.
FIG. 6 is a flowchart showing pre-processing in the document analysis apparatus 1 according to the present embodiment.
FIG. 7 is a diagram for explaining pre-processing in the document analysis apparatus 1 according to the present embodiment.
FIG. 8 is a flowchart showing score calculation processing in the document analysis apparatus 1 according to the present embodiment.
FIG. 9 is a diagram for explaining score calculation processing and rearrangement of evaluation target sentences in the document analysis apparatus 1 according to the present embodiment.

図3のステップS(以下、単に「S」という。)10において、文書解析装置1の制御部10(文書受付部11)は、端末8から対象文書30を受け付ける。
端末8は、文書解析装置1に接続することで、図4(A)に示す文書入力画面80を端末8の表示部に表示させる。そして、端末8のユーザUは、文書入力部80aに、要約を出力したい対象文書30を入力する。なお、対象文書30がデータ化されている場合には、ボタン80bを選択して、端末8内に保存されているデータ化された文書のデータ名を、データ名入力部80cに指定してもよい。また、対象文書30がインターネット上にある場合には、対象文書が掲載されたWebページのURI(Uniform Resource Identifier)を、データ名入力部80cに指定してもよい。そして、対象文書30を入力又は指定後に、ユーザUがボタン80dを選択することで、端末8の制御部は、対象文書30を文書解析装置1に送信する。このように、ユーザUが端末8を操作することで、文書解析装置1の制御部10(文書受付部11)は、端末8から対象文書30を受け付けることができる。図5は、端末8から受け付けた対象文書30の一例を示す。
In step S (hereinafter simply referred to as “S”) 10 in FIG. 3, the control unit 10 (document reception unit 11) of the document analysis apparatus 1 receives the target document 30 from the terminal 8.
The terminal 8 is connected to the document analysis apparatus 1 to display the document input screen 80 shown in FIG. 4A on the display unit of the terminal 8. Then, the user U of the terminal 8 inputs the target document 30 whose summary is to be output to the document input unit 80a. When the target document 30 is converted into data, the button 80b is selected, and the data name of the converted document stored in the terminal 8 is designated in the data name input unit 80c. Good. If the target document 30 is on the Internet, the URI (Uniform Resource Identifier) of the Web page on which the target document is posted may be specified in the data name input unit 80c. Then, after inputting or specifying the target document 30, the user U selects the button 80 d, so that the control unit of the terminal 8 transmits the target document 30 to the document analysis apparatus 1. Thus, when the user U operates the terminal 8, the control unit 10 (document reception unit 11) of the document analysis apparatus 1 can receive the target document 30 from the terminal 8. FIG. 5 shows an example of the target document 30 received from the terminal 8.

図3に戻り、S11において、制御部10(事前処理部12)は、対象文書30に対して事前処理を行う。
ここで、事前処理について、図6に基づき説明する。
図6のS20において、制御部10は、対象文書30から主要語を取得し、主要語リスト35を作成する。ここで、主要語とは、例えば、図5に示す対象文書30に含まれる文書タイトル31と、冒頭文32と、章節の見出し33とのうち、少なくともいずれかに含まれる名詞をいう。これは、対象文書30に関する主要(重要)な語は、文書タイトル31や、冒頭文32や、章節の見出し33に含まれることが多いという経験則に基づく。
この例では、制御部10は、図5に示す対象文書30から、文書タイトル31に含まれる名詞を、主要語として取得する。なお、図5では、文書タイトル31に含まれる名詞を分かりやすくするために、下線を付している。そして、制御部10は、取得した主要語を、主要語リスト35に記憶させる。
図7(A)に示す主要語リスト35は、取得した主要語を記憶したものである。
Returning to FIG. 3, in S <b> 11, the control unit 10 (pre-processing unit 12) performs pre-processing on the target document 30.
Here, the pre-processing will be described with reference to FIG.
In S <b> 20 of FIG. 6, the control unit 10 acquires a main word from the target document 30 and creates a main word list 35. Here, the main word refers to, for example, a noun included in at least one of the document title 31, the opening sentence 32, and the chapter heading 33 included in the target document 30 illustrated in FIG. This is based on an empirical rule that main (important) words related to the target document 30 are often included in the document title 31, the opening sentence 32, and the chapter heading 33.
In this example, the control unit 10 acquires a noun included in the document title 31 as a main word from the target document 30 shown in FIG. In FIG. 5, the nouns included in the document title 31 are underlined for easy understanding. Then, the control unit 10 stores the acquired main word in the main word list 35.
The main word list 35 shown in FIG. 7A stores the acquired main words.

図6に戻り、S21において、制御部10は、対象文書30から名詞(語)を抽出し、名詞の重み係数fn(word)を算出する。ここで抽出する名詞は、対象文書30にある全ての名詞である。
具体的には、制御部10は、図5に示す対象文書30から全ての名詞(word)を抽出する。制御部10は、抽出した名詞を、名詞リスト40に記憶させる。次に、制御部10は、名詞ごとに、対象文書30に含まれる数をカウントし、出現頻度f(word)として名詞リスト40に記憶させる。そして、制御部10は、名詞の重み係数fn(word)を算出する。
名詞の重み係数fn(word)は、Fをf(word)の集合(f(word)∈F)として、次の式で算出できる。
Returning to FIG. 6, in S <b> 21, the control unit 10 extracts nouns (words) from the target document 30 and calculates a noun weighting factor fn (word). The nouns extracted here are all nouns in the target document 30.
Specifically, the control unit 10 extracts all nouns from the target document 30 shown in FIG. The control unit 10 stores the extracted noun in the noun list 40. Next, the control part 10 counts the number contained in the object document 30 for every noun, and memorize | stores it in the noun list 40 as appearance frequency f (word). Then, the control unit 10 calculates a noun weighting factor fn (word).
The weighting coefficient fn (word) of the noun can be calculated by the following equation, where F is a set of f (word) (f (word) εF).

Figure 2017010107
これは、文書中の名詞の出現頻度の最大値に対する、対象とした名詞の出現頻度の割合に、1を加算した値を、その名詞の重み係数fn(word)にしたものである。この式により、“word”の重み係数fn(word)は、1〜2の範囲で正規化した値になる。つまり、“word”の出現頻度が高ければ、2に近づき、低ければ、1に近づく。
そして、制御部10は、算出した名詞の重み係数を、その名詞に対応付けて名詞リスト40に記憶させる。
図7(B)は、この処理で作成された名詞リスト40を示す。
Figure 2017010107
This is a value obtained by adding 1 to the ratio of the appearance frequency of the target noun to the maximum value of the appearance frequency of the noun in the document as the weight coefficient fn (word) of the noun. According to this equation, the weighting factor fn (word) of “word” is a value normalized in the range of 1 to 2. That is, when the appearance frequency of “word” is high, it approaches 2 and when it is low, it approaches 1.
Then, the control unit 10 stores the calculated noun weight coefficient in the noun list 40 in association with the noun.
FIG. 7B shows the noun list 40 created by this processing.

図6に戻り、S22において、制御部10は、対象文書30を、処理単位の文である評価対象文に分割する。図7(C)は、評価対象文に分割した対象文書30を示す。ここでは、評価対象文を段落にしているので、この処理によって、対象文書30は、複数の文51,52,・・・56,・・・に分割できる。なお、この例では、文書タイトル31(図5参照)を含んでいないが、文書タイトル31を含んでもよい。
その後、制御部10は、本処理を終了し、図3に戻る。
Returning to FIG. 6, in S <b> 22, the control unit 10 divides the target document 30 into evaluation target sentences that are processing-unit sentences. FIG. 7C shows the target document 30 divided into evaluation target sentences. Here, since the evaluation target sentence is a paragraph, the target document 30 can be divided into a plurality of sentences 51, 52,... 56,. In this example, the document title 31 (see FIG. 5) is not included, but the document title 31 may be included.
Then, the control part 10 complete | finishes this process, and returns to FIG.

図3のS12において、制御部10は、1つの評価対象文を取得する。
S13において、制御部10は、取得した評価対象文に関するスコア算出処理を行う。
ここで、スコア算出処理について、図8に基づき説明する。
図8のS30において、制御部10(文処理部13、重要度算出部14)は、取得したj番目の評価対象文の重要度スコアP(j)を算出する。
j番目の評価対象文の重要度スコアP(j)は、j番目の評価対象文における名詞の総出現数をM(j)とし、主要語の重み係数をαとした場合に、以下の式で算出できる。
なお、主要語の重み係数αは、任意に設定してよい。以下の例では、主要語の重み係数αは、“word”(名詞)が主要語であれば2とし、そうでなければ1とする。
In S12 of FIG. 3, the control unit 10 acquires one evaluation target sentence.
In S <b> 13, the control unit 10 performs a score calculation process regarding the acquired evaluation target sentence.
Here, the score calculation process will be described with reference to FIG.
In S30 of FIG. 8, the control unit 10 (sentence processing unit 13, importance calculation unit 14) calculates the importance score P (j) of the acquired j-th evaluation target sentence.
The importance score P (j) of the j-th evaluation target sentence is expressed by the following equation when the total number of nouns in the j-th evaluation target sentence is M (j) and the weighting factor of the main word is α. It can be calculated by
Note that the weighting factor α of the main word may be set arbitrarily. In the following example, the weighting factor α of the main word is 2 if “word” (noun) is the main word, and 1 otherwise.

Figure 2017010107
これは、j番目の評価対象文中の全ての名詞に対し、各名詞の重み係数に主要語の重み係数を掛けあわせ、その総和を名詞の総出現数で割った値を、j番目の評価対象文の重要度スコアP(j)にしたものである。
この式によれば、j番目の評価対象文に含まれる出現頻度の高い名詞が主要語であれば、重要度スコアP(j)は高い値になる。
なお、重要度スコアP(j)の算出にあたって、名詞の総出現数をM(j)で割っているのは、評価対象文の長短による差が出ないようにするためである。
Figure 2017010107
This is obtained by multiplying the weighting factor of each noun by the weighting factor of the main word for all the nouns in the jth sentence to be evaluated, and dividing the sum by the total number of occurrences of the noun. The sentence importance score P (j) is used.
According to this expression, if a noun with a high appearance frequency included in the j-th evaluation target sentence is a main word, the importance score P (j) has a high value.
In the calculation of the importance score P (j), the total number of nouns is divided by M (j) in order to prevent a difference due to the length of the evaluation target sentence.

S31において、制御部10(文処理部13、簡単度算出部15)は、取得したj番目の評価対象文の簡単度スコアE(j)を算出する。
ここで、j番目の評価対象文の簡単度スコアE(j)の算出には、j番目の評価対象文における漢字率k(j)と、連続名詞率nc(j)と、専門用語辞書DB4での見出し語率er(j)と、専門語率t(j)と、専門用語辞書DB4の参照数の平均ea(j)とを使用する。
In S31, the control unit 10 (the sentence processing unit 13 and the simplicity calculating unit 15) calculates the simplicity score E (j) of the acquired j-th evaluation target sentence.
Here, for calculating the simplicity score E (j) of the j-th evaluation target sentence, the kanji rate k (j), the continuous noun ratio nc (j) in the j-th evaluation target sentence, and the technical term dictionary DB 4 The headword rate er (j), the technical term rate t (j), and the average ea (j) of the number of references in the technical term dictionary DB4 are used.

j番目の評価対象文における漢字率k(j)は、j番目の評価対象文の文字数に対する漢字数の割合である。これは、漢字が多い文ほど、難しい文であることによる。
j番目の評価対象文の連続名詞率nc(j)は、j番目の評価対象文の名詞数に対する連続名詞数の割合である。ここで、連続名詞とは、「人工知能」(「人工」+「知能」)等である。これは、連続名詞が多い文ほど、難しい文であることによる。
なお、漢字率k(j)と、連続名詞率nc(j)とは、「柴崎秀子,日本語リーダビリティー公式の構築と測定ツールの開発,特定領域研究日本語コーパス平成20年度公開ワークショップ研究成果報告会予稿集,pp.155-160,2009」の記載に基づくものである。
The kanji rate k (j) in the jth evaluation target sentence is the ratio of the number of kanji characters to the number of characters in the jth evaluation target sentence. This is because sentences with more kanji are more difficult.
The continuous noun rate nc (j) of the jth evaluation target sentence is a ratio of the number of continuous nouns to the number of nouns of the jth evaluation target sentence. Here, the continuous noun is “artificial intelligence” (“artificial” + “intelligence”) or the like. This is because sentences with more continuous nouns are more difficult sentences.
The kanji rate k (j) and the continuous noun rate nc (j) are as follows: “Hideko Shibasaki, Construction of Japanese Readability Formula, Development of Measurement Tools, Specific Area Research Japanese Corpus Open Workshop 2008 This is based on the description of the Proceedings of Research Report Meeting, pp.155-160, 2009 ”.

j番目の評価対象文の専門用語辞書DB4での見出し語率er(j)は、形態素数に対する専門用語辞書DB4の見出し語数の割合である。これは、文に専門用語辞書DB4の見出し語の数が多く含まれるほど、難しい文であることによる。
j番目の評価対象文の専門語率t(j)は、専門用語辞書DB4の見出し語数に対する、専門用語辞書DB4の見出し語に含まれ、かつ、一般用語辞書DB6の見出し語にない語の数である。これは、専門用語辞書DB4の見出し語に含まれ、かつ、一般用語辞書DB6の見出し語にない語である真の専門語が文に多く含まれるほど、難しい文であることによる。一般用語辞書DB6の見出し語であるものは、簡単であるとして、簡単度スコアの算出に組み入れないのは、一般用語辞書DB6の見出し語であるものを組み入れると、簡単度スコアE(j)が高くなりすぎてしまうためである。
j番目の評価対象文の専門用語辞書DB4の参照数の平均ea(j)は、真の専門語の数に対するその専門語の参照数の合計の割合である。これは、真の専門語の参照がされているほど、人々に認知されているため、簡単であることによる。
The headword rate er (j) in the technical term dictionary DB4 of the j-th evaluation target sentence is the ratio of the number of headwords in the technical term dictionary DB4 to the number of morphemes. This is because a sentence is so difficult that the number of headwords of technical term dictionary DB4 is included in a sentence.
The technical word rate t (j) of the j-th evaluation target sentence is the number of words included in the headwords of the technical term dictionary DB4 and not included in the headwords of the general term dictionary DB6 with respect to the number of headwords of the technical term dictionary DB4. It is. This is because the sentence is more difficult as the sentence includes more true technical words that are included in the headword of the technical term dictionary DB4 and not in the headword of the general term dictionary DB6. What is a headword in the general term dictionary DB6 is simple, and is not included in the calculation of the simplicity score. If the headword in the general term dictionary DB6 is included, the simplicity score E (j) is This is because it becomes too high.
The average ea (j) of the number of references in the technical term dictionary DB 4 of the j-th evaluation target sentence is a ratio of the total number of references of the technical term to the number of true technical terms. This is due to the fact that the more true vocabulary is referenced, the more it is perceived by people.

ここで、専門用語辞書DB4の参照数の平均eaを用いるのは、「岡田仁之,島田諭,福原知宏,佐藤哲司、“Webコンテンツの文章表現に関する一検討―単語親密度を用いた文章の親密度評価―”,第1回データ工学と情報マネジメントに関するフォーラム,2009」の記載から、認知されやすい語は、単語親密度が高いといわれ、親密度が高いほど難易度が低いと考えられることに基づくものである。そして、ここでは、認知されているか否かを、見出し語参照数DB5の参照数の多少により判断している。つまり、見出し語参照数DB5の参照数が多いほど、ユーザがよく調べる専門用語であり、ユーザから認知された語であると判断できる。   Here, the average ea of the number of references in the technical term dictionary DB4 is used as “Hitayuki Okada, Atsushi Shimada, Tomohiro Fukuhara, Tetsuji Sato,“ A Study on Sentence Representation of Web Content—Sentence Parent Using Word Familiarity ” Density evaluation-From the description of “The 1st Forum on Data Engineering and Information Management, 2009”, it is said that easy-to-recognize words are said to have higher word familiarity, and the higher the familiarity, the lower the difficulty level. Is based. Here, whether or not it is recognized is determined based on the number of references in the headword reference number DB 5. That is, as the reference number in the headword reference number DB 5 increases, it can be determined that the term is a technical term that the user frequently checks and is a word recognized by the user.

j番目の評価対象文の簡単度スコアE(j)は、次の式で算出できる。

Figure 2017010107
これは、j番目の評価対象文の漢字率k(j)と、連続名詞率nc(j)と、専門用語辞書DB4での見出し語率er(j)と、専門語率t(j)とを、それぞれ「1」から引いた各値と、専門用語辞書DB4の参照数の平均ea(j)とを掛けあわせた値を、j番目の評価対象文の簡単度スコアE(j)にしたものである。 The simplicity score E (j) of the j-th evaluation target sentence can be calculated by the following equation.
Figure 2017010107
This is because the k-th character rate k (j), the continuous noun rate nc (j), the headword rate er (j) in the technical term dictionary DB4, and the technical term rate t (j) The value obtained by multiplying each value subtracted from “1” by the average ea (j) of the number of references in the technical term dictionary DB 4 is used as the simplicity score E (j) of the j-th evaluation target sentence. Is.

このように、文書解析装置1は、文の簡単度スコアを算出するものとして、見出し語参照数DB5の参照数を用いる。そのため、ユーザUごとの利用履歴等を必要としないため、どのようなユーザUであっても、この文書解析装置1を使用して文の簡単度合いを取得できる。また、文書解析装置1は、既にインターネット上にある資源である見出し語参照数DB5の参照数を用いて、文の簡単度合いを取得できる。   As described above, the document analysis device 1 uses the reference number of the headword reference number DB 5 as the sentence simplicity score. For this reason, since a usage history or the like for each user U is not required, any user U can acquire the degree of simplicity of the sentence using the document analysis apparatus 1. Further, the document analysis apparatus 1 can acquire the degree of simplicity of the sentence using the reference number of the headword reference number DB 5 which is a resource already on the Internet.

S32において、制御部10(文処理部13、評価スコア算出部16)は、取得したj番目の評価対象文の評価スコアScore(j)を算出する。
評価スコアScore(j)は、重要度スコアP(j)と、簡単度スコアE(j)とを用いて、次の式で算出できる。

Figure 2017010107
これは、重要度スコアP(j)と、簡単度スコアE(j)とを掛けあわせた値を、j番目の評価対象文の評価スコアScore(j)にしたものである。正規化された重要度スコアP(j)と、簡単度スコアE(j)とを掛けあわせることで、評価スコアScore(j)も、正規化された値になる。そして、評価スコアScore(j)は、重要かつ簡単な文であるほど、高い値に算出される。
その後、制御部10は、本処理を終了し、図3に戻る。 In S32, the control unit 10 (the sentence processing unit 13, the evaluation score calculation unit 16) calculates the evaluation score Score (j) of the acquired jth evaluation target sentence.
The evaluation score Score (j) can be calculated by the following equation using the importance score P (j) and the simplicity score E (j).
Figure 2017010107
This is a value obtained by multiplying the importance score P (j) and the simplicity score E (j) as the evaluation score Score (j) of the j-th evaluation target sentence. By multiplying the normalized importance score P (j) and the simplicity score E (j), the evaluation score Score (j) also becomes a normalized value. The evaluation score Score (j) is calculated as a higher value as the sentence is more important and simple.
Then, the control part 10 complete | finishes this process, and returns to FIG.

図3に戻り、S14において、制御部10は、対象文書30内の全ての評価対象文について処理したか否かを判断する。対象文書30内の全ての評価対象文について処理した場合(S14:YES)には、制御部10は、処理をS15に移す。他方、対象文書30内の全ての評価対象文について処理をしていない場合(S14:NO)には、制御部10は、処理をS15aに移す。
S15aにおいて、制御部10は、処理をしていない評価対象文を1つ取得する。その後、制御部10は、処理をS13に移し、取得した1つの評価対象文に関してスコア算出処理を行う。
他方、S15において、制御部10は、評価スコアの高い順に評価対象文を並び替える。
図9(A)は、図3のS13のスコア算出処理によって算出された各評価対象文の重要度スコアP(j)を示す。同様に、図9(B)、(C)は、各評価対象文の簡単度スコアE(j)と評価スコアScore(j)とを示す。そして、図9(D)は、評価スコアScore(j)の高い順に、評価対象文を並べ替えた例を示す。
Returning to FIG. 3, in S <b> 14, the control unit 10 determines whether all the evaluation target sentences in the target document 30 have been processed. When all the evaluation target sentences in the target document 30 have been processed (S14: YES), the control unit 10 moves the process to S15. On the other hand, when all the evaluation target sentences in the target document 30 are not processed (S14: NO), the control unit 10 moves the process to S15a.
In S15a, the control unit 10 acquires one evaluation target sentence that has not been processed. Thereafter, the control unit 10 moves the process to S13 and performs a score calculation process for the obtained one evaluation target sentence.
On the other hand, in S15, the control unit 10 rearranges the evaluation target sentences in descending order of evaluation score.
FIG. 9A shows the importance score P (j) of each evaluation target sentence calculated by the score calculation process of S13 of FIG. Similarly, FIGS. 9B and 9C show the simplicity score E (j) and the evaluation score Score (j) of each sentence to be evaluated. FIG. 9D illustrates an example in which the evaluation target sentences are rearranged in the descending order of the evaluation score Score (j).

図3に戻り、S16において、制御部10は、評価スコアの高い評価対象文を、端末8に対して出力する。その後、制御部10は、本処理を終了する。
端末8では、図4(B)に示す処理結果画面81の文出力部81aに、評価スコアが高い評価対象文が表示される。なお、ボタン81bを選択することで、文出力部81aに、次に評価スコアが高い評価対象文を含めて評価スコアが高い評価対象文を表示してもよい。
Returning to FIG. 3, in S <b> 16, the control unit 10 outputs an evaluation target sentence with a high evaluation score to the terminal 8. Then, the control part 10 complete | finishes this process.
In the terminal 8, an evaluation target sentence with a high evaluation score is displayed on the sentence output unit 81a of the processing result screen 81 shown in FIG. Note that by selecting the button 81b, the sentence output unit 81a may display an evaluation target sentence with a high evaluation score including an evaluation target sentence with the next highest evaluation score.

このように、本実施形態によれば、文書解析装置1は、以下のような効果がある。
(1)重要度スコアと簡単度スコアとから文の評価スコアを算出するので、重要かつ簡単な文を、評価スコアによって判断できる。そして、評価スコアが高いものであるほど、その文は、重要かつ簡単な文であるという判断をすることができる。よって、客観的な指標を用いて文の重要かつ簡単な度合いを測ることができる。
(2)見出し語参照数DB5の参照数を用いて、簡単度スコアを算出するので、ユーザUの利用状況に関係なく、適切なスコアが算出できる。そして、見出し語参照数DB5の参照数が多いほど、広く知られ認知されやすい語であるとして、簡単度スコアを高く算出できる。
Thus, according to the present embodiment, the document analysis apparatus 1 has the following effects.
(1) Since an evaluation score of a sentence is calculated from the importance score and the simplicity score, an important and simple sentence can be determined based on the evaluation score. It can be determined that the higher the evaluation score is, the more important and simple the sentence is. Therefore, it is possible to measure an important and simple level of a sentence using an objective index.
(2) Since the simplicity score is calculated using the reference number of the headword reference number DB5, an appropriate score can be calculated regardless of the usage situation of the user U. Then, the greater the number of references in the headword reference number DB 5, the higher the simplicity score can be calculated as a word that is widely known and easily recognized.

(3)専門用語辞書DB4を使用して、文に専門用語を含むほど、その文は、難しい文であると判断して、文の簡単度スコアに重み付けをすることで、文の簡単度スコアを低く算出できる。
(4)専門用語辞書DB4の見出し語であり、かつ、一般用語辞書DB6の見出し語である語(名詞)を文に含む場合に、文の簡単度スコアの重みを低くする。そのような語は一般的な語であるので、専門語率を算出し、一般的な語による重みを低くすることで、簡単度スコアの値を、より精緻なものにできる。
(3) Using the technical term dictionary DB 4, the more the technical terms are included in the sentence, the more difficult the sentence is, and the sentence simplicity score is weighted by weighting the sentence simplicity score. Can be calculated low.
(4) When a word (noun) that is a headword in the technical term dictionary DB4 and a headword in the general term dictionary DB6 is included in the sentence, the weight of the sentence simplicity score is lowered. Since such a word is a general word, the value of the simplicity score can be made more precise by calculating the technical word rate and reducing the weight of the general word.

(5)文書内の出現頻度が高い名詞を含むほど、その文は、重要度合いが高いものであると判断して、文の重要度スコアを高く算出できる。
(6)文の評価スコアに基づいて文を抽出する。よって、誰が利用しても文書から重要かつ簡単な文を抽出することができる。そして、評価スコアが高い文を抽出することにより、抽出された文は、重要かつ簡単な文であるため、例えば、要約文として使用できる。
(5) It can be determined that the sentence has a higher importance level as the noun having a higher appearance frequency in the document is included, and the sentence importance score can be calculated higher.
(6) Extract a sentence based on the evaluation score of the sentence. Therefore, an important and simple sentence can be extracted from a document no matter who uses it. Then, by extracting a sentence with a high evaluation score, the extracted sentence is an important and simple sentence, and can be used as, for example, a summary sentence.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。   As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above. In addition, the effects described in the embodiments are merely a list of the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the embodiments. In addition, although embodiment mentioned above and the deformation | transformation form mentioned later can also be used combining suitably, detailed description is abbreviate | omitted.

(変形形態)
(1)本実施形態では、評価する文の単位を、段落に含む文として説明したが、これに限定されない。評価する文の単位は、句点で区切られた一文であってもよいし、句点で区切られた複数の文であってもよい。また、評価する文の単位を、文書解析装置で予め決めたものとして説明したが、これに限定されない。例えば、端末から文の単位を受け付けてもよい。
(2)本実施形態では、主要語を、文書タイトル、冒頭文、見出しのうち少なくともいずれかに含む名詞として説明したが、これに限定されない。例えば、第1段落等であってもよい。
(3)本実施形態では、端末に評価スコアが高い文を出力するものとして説明したが、これに限定されない。評価スコアが高い文を、評価スコアと共に出力してもよい。
(Deformation)
(1) In the present embodiment, the unit of a sentence to be evaluated has been described as a sentence included in a paragraph, but the present invention is not limited to this. The unit of the sentence to be evaluated may be a single sentence delimited by punctuation marks or a plurality of sentences delimited by punctuation marks. Moreover, although the unit of the sentence to be evaluated has been described as being predetermined by the document analysis apparatus, the present invention is not limited to this. For example, a sentence unit may be received from a terminal.
(2) In the present embodiment, the main word has been described as a noun included in at least one of the document title, the opening sentence, and the headline. However, the present invention is not limited to this. For example, it may be the first paragraph or the like.
(3) Although the present embodiment has been described as outputting a sentence with a high evaluation score to the terminal, the present invention is not limited to this. A sentence with a high evaluation score may be output together with the evaluation score.

(4)本実施形態では、重要度スコアと、簡単度スコアの算出式を説明した。これは、一例であって、重要度や簡単度合いを算出可能な他の値を組み入れたり、一部の値を除外したりしてもよい。
(5)本実施形態では、全ての名詞の重み係数を算出するものとして説明したが、これに限定されない。例えば、名詞の出現頻度を算出した後に、出現頻度の最大値と比較して一定値以上のものに関してのみ重み係数を算出し、それ以外の名詞に関しては、重み係数を1にしてもよい。
(4) In this embodiment, the importance score and the formula for calculating the simplicity score have been described. This is an example, and other values that can calculate the importance and the simplicity may be incorporated, or some values may be excluded.
(5) Although the present embodiment has been described as calculating weight coefficients for all nouns, the present invention is not limited to this. For example, after calculating the appearance frequency of nouns, the weighting coefficient may be calculated only for those having a certain value or more compared with the maximum value of the appearance frequency, and the weighting coefficient may be set to 1 for other nouns.

1 文書解析装置
4 専門用語辞書DB
5 見出し語参照数DB
6 一般用語辞書DB
8 端末
10 制御部
12 事前処理部
13 文処理部
14 重要度算出部
15 簡単度算出部
16 評価スコア算出部
17 文出力部
20 記憶部
21a 文書解析プログラム
30 対象文書
35 主要語リスト
40 名詞リスト
100 文書解析システム
1 Document analyzer 4 Technical term dictionary DB
5 Headword reference number DB
6 General term dictionary DB
DESCRIPTION OF SYMBOLS 8 Terminal 10 Control part 12 Preprocessing part 13 Sentence processing part 14 Importance calculation part 15 Simplicity calculation part 16 Evaluation score calculation part 17 Sentence output part 20 Storage part 21a Document analysis program 30 Target document 35 Main word list 40 Noun list 100 Document analysis system

Claims (8)

文書に含まれる文を評価する情報処理装置であって、
前記文書を文単位に分割する文分割手段と、
文の重要度合いを示す重要度スコアを算出する重要度算出手段と、
文の簡単度合いを示す簡単度スコアを算出する簡単度算出手段と、
算出された前記重要度スコアと、前記簡単度スコアとを用いて、文の重要かつ簡単な度合いである評価スコアを算出する評価スコア算出手段と、
を備える情報処理装置。
An information processing apparatus for evaluating a sentence included in a document,
Sentence dividing means for dividing the document into sentence units;
An importance calculation means for calculating an importance score indicating the importance of the sentence;
A simpleness calculating means for calculating a simpleness score indicating the simpleness of the sentence;
An evaluation score calculating means for calculating an evaluation score which is an important and simple degree of a sentence using the calculated importance score and the simplicity score;
An information processing apparatus comprising:
請求項1に記載の情報処理装置において、
前記文書に含まれる全ての文に対して、前記評価スコア算出手段を実行する文書処理手段と、
前記文書処理手段により算出された各文の前記評価スコアに基づいて、前記評価スコアが高い文を抽出する文抽出手段と、
を備えること、
を特徴とする情報処理装置。
The information processing apparatus according to claim 1,
Document processing means for executing the evaluation score calculating means for all sentences included in the document;
Sentence extraction means for extracting a sentence with a high evaluation score based on the evaluation score of each sentence calculated by the document processing means;
Providing
An information processing apparatus characterized by the above.
請求項1又は請求項2に記載の情報処理装置において、
専門用語を見出し語にした辞書である専門用語辞書データベースの前記見出し語に対する参照数を記憶した見出し語参照数データベースに対して通信可能に接続され、
前記簡単度算出手段は、前記見出し語参照数データベースを参照し、前記簡単度スコアを算出すること、
を特徴とする情報処理装置。
The information processing apparatus according to claim 1 or 2,
Connected to a headword reference number database storing the number of references to the headword in the technical term dictionary database, which is a dictionary having technical terms as headwords,
The simplicity calculating means refers to the headword reference number database and calculates the simplicity score;
An information processing apparatus characterized by the above.
請求項1から請求項3までのいずれかに記載の情報処理装置において、
専門用語を見出し語にした辞書である専門用語辞書データベースに対して通信可能に接続され、
前記簡単度算出手段は、前記文に、前記専門用語辞書データベースの前記見出し語を含む場合に、前記簡単度スコアに重み付けをすること、
を特徴とする情報処理装置。
In the information processing apparatus according to any one of claims 1 to 3,
Connected to a technical term dictionary database, which is a dictionary with technical terms as headwords,
The simplicity calculating means weights the simplicity score when the sentence includes the headword of the technical term dictionary database;
An information processing apparatus characterized by the above.
請求項4に記載の情報処理装置において、
前記簡単度算出手段は、前記文に、前記専門用語辞書データベースの前記見出し語に含まれ、かつ、一般用語を見出し語にした一般用語辞書データベースに含まれる見出し語を含む場合には、前記重みを低くすること、
を特徴とする情報処理装置。
The information processing apparatus according to claim 4,
When the sentence includes a headword that is included in the headword in the technical term dictionary database and that is included in a general term dictionary database that uses a general term as a headword, the weight calculation unit calculates the weight. Lowering,
An information processing apparatus characterized by the above.
請求項1から請求項5までのいずれかに記載の情報処理装置において、
前記重要度算出手段は、前記文に、前記文書に含まれる出現頻度が高い名詞を含むほど、前記重要度スコアを高く算出すること、
を特徴とする情報処理装置。
In the information processing apparatus according to any one of claims 1 to 5,
The importance calculation means calculates the importance score higher as the sentence includes a noun having a higher appearance frequency included in the document.
An information processing apparatus characterized by the above.
請求項3から請求項5までのいずれかに記載の情報処理装置と、
専門用語を見出し語にした辞書である専門用語辞書データベースの前記見出し語に対する参照数を記憶した見出し語参照数データベースと、
を備えた情報処理システム。
An information processing apparatus according to any one of claims 3 to 5,
A headword reference number database that stores the number of references to the headword in the technical term dictionary database, which is a dictionary that uses technical terms as headwords;
Information processing system with
請求項1から請求項6までのいずれかに記載の情報処理装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the information processing apparatus according to any one of claims 1 to 6.
JP2015121927A 2015-06-17 2015-06-17 Information processing apparatus, information processing system, and program Expired - Fee Related JP6613644B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015121927A JP6613644B2 (en) 2015-06-17 2015-06-17 Information processing apparatus, information processing system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015121927A JP6613644B2 (en) 2015-06-17 2015-06-17 Information processing apparatus, information processing system, and program

Publications (2)

Publication Number Publication Date
JP2017010107A true JP2017010107A (en) 2017-01-12
JP6613644B2 JP6613644B2 (en) 2019-12-04

Family

ID=57763540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015121927A Expired - Fee Related JP6613644B2 (en) 2015-06-17 2015-06-17 Information processing apparatus, information processing system, and program

Country Status (1)

Country Link
JP (1) JP6613644B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101564A (en) * 2017-11-29 2019-06-24 大日本印刷株式会社 Display device, computer program and display method
JP2020067987A (en) * 2018-10-26 2020-04-30 楽天株式会社 Summary creation device, summary creation method, and program
JP2021149580A (en) * 2020-03-19 2021-09-27 ヤフー株式会社 Information processing device, information processing method, and program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319852A (en) * 1994-05-20 1995-12-08 Nippon Telegr & Teleph Corp <Ntt> System for estimating easiness of document reading
JPH10207891A (en) * 1997-01-17 1998-08-07 Fujitsu Ltd Document summarizing device and its method
US20030079185A1 (en) * 1998-10-09 2003-04-24 Sanjeev Katariya Method and system for generating a document summary
JP2004348566A (en) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> Method and device for summarizing text and text summarization program
JP2007011774A (en) * 2005-06-30 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> Sentence analysis device, sentence analysis method, program, and storage medium
JP2011141766A (en) * 2010-01-07 2011-07-21 Toshiba Corp Program and apparatus for evaluating document readability
JP2012230540A (en) * 2011-04-26 2012-11-22 Nippon Telegr & Teleph Corp <Ntt> Document generation support method, document generation support device and document generation support program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319852A (en) * 1994-05-20 1995-12-08 Nippon Telegr & Teleph Corp <Ntt> System for estimating easiness of document reading
JPH10207891A (en) * 1997-01-17 1998-08-07 Fujitsu Ltd Document summarizing device and its method
US20030079185A1 (en) * 1998-10-09 2003-04-24 Sanjeev Katariya Method and system for generating a document summary
JP2004348566A (en) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> Method and device for summarizing text and text summarization program
JP2007011774A (en) * 2005-06-30 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> Sentence analysis device, sentence analysis method, program, and storage medium
JP2011141766A (en) * 2010-01-07 2011-07-21 Toshiba Corp Program and apparatus for evaluating document readability
JP2012230540A (en) * 2011-04-26 2012-11-22 Nippon Telegr & Teleph Corp <Ntt> Document generation support method, document generation support device and document generation support program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
加藤直人、浦谷則好: "放送ニュースを対象にした重要文抽出", 言語処理学会第6回年次大会発表論文集, JPN6019008966, 7 March 2000 (2000-03-07), JP, pages 237 - 240, ISSN: 0003996689 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101564A (en) * 2017-11-29 2019-06-24 大日本印刷株式会社 Display device, computer program and display method
JP7091637B2 (en) 2017-11-29 2022-06-28 大日本印刷株式会社 Display device, computer program and display method
JP2020067987A (en) * 2018-10-26 2020-04-30 楽天株式会社 Summary creation device, summary creation method, and program
US11061950B2 (en) 2018-10-26 2021-07-13 Rakuten, Inc. Summary generating device, summary generating method, and information storage medium
JP2021149580A (en) * 2020-03-19 2021-09-27 ヤフー株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP6613644B2 (en) 2019-12-04

Similar Documents

Publication Publication Date Title
Rudkowsky et al. More than bags of words: Sentiment analysis with word embeddings
US11423056B2 (en) Content discovery systems and methods
El-Haj et al. Using mechanical turk to create a corpus of arabic summaries
Tanaka-Ishii et al. Computational constancy measures of texts—Yule's K and Rényi's entropy
KR20160121382A (en) Text mining system and tool
US20170177180A1 (en) Dynamic Highlighting of Text in Electronic Documents
US20190370274A1 (en) Analysis Method Using Graph Theory, Analysis Program, and Analysis System
KR20130056207A (en) Relational information expansion device, relational information expansion method and program
JP5846959B2 (en) Basic vocabulary extraction device and program
US20160140234A1 (en) Method and Computer Server System for Receiving and Presenting Information to a User in a Computer Network
Hollenstein et al. Inconsistency detection in semantic annotation
JP6626917B2 (en) Readability evaluation method and system based on English syllable calculation method
JP6613644B2 (en) Information processing apparatus, information processing system, and program
US10043511B2 (en) Domain terminology expansion by relevancy
US9594757B2 (en) Document management system, document management method, and document management program
Mahmoud et al. Using twitter to monitor political sentiment for Arabic slang
Neelima et al. Extractive text summarization using deep natural language fuzzy processing
CN112926297B (en) Method, apparatus, device and storage medium for processing information
KR102519955B1 (en) Apparatus and method for extracting of topic keyword
US11928180B2 (en) Automatic ground truth selection
US11822609B2 (en) Prediction of future prominence attributes in data set
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system
JP2020129190A (en) Answer retrieval device, answer retrieval method and answer retrieval program
Kelih et al. Number of canonical syllable types: A continuous bivariate model
JP7553314B2 (en) Estimation device, estimation method, and program

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191021

R150 Certificate of patent or registration of utility model

Ref document number: 6613644

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees