JP2014235511A - Information processing device, control method, and computer program - Google Patents

Information processing device, control method, and computer program Download PDF

Info

Publication number
JP2014235511A
JP2014235511A JP2013115791A JP2013115791A JP2014235511A JP 2014235511 A JP2014235511 A JP 2014235511A JP 2013115791 A JP2013115791 A JP 2013115791A JP 2013115791 A JP2013115791 A JP 2013115791A JP 2014235511 A JP2014235511 A JP 2014235511A
Authority
JP
Japan
Prior art keywords
sentence
analysis
clause
feature
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013115791A
Other languages
Japanese (ja)
Inventor
淑隆 林
Yoshitaka Hayashi
淑隆 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc, Canon MJ IT Group Holdings Inc filed Critical Canon Marketing Japan Inc
Priority to JP2013115791A priority Critical patent/JP2014235511A/en
Publication of JP2014235511A publication Critical patent/JP2014235511A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processing device, a control method, and a computer program, which allow a user to accurately create a summary text according to a field of a text.SOLUTION: By extracting a feature of each of sentences composing an e-mail from a syntactic structure, with respect to each of the sentences, determining an attribute of each of the sentences, extracting a phrase which may be dependent on a field of a text, and creating a summary text, and then associating its feature with the summary text, it becomes possible to create the summary text corresponding to the feature (field).

Description

本発明は、電子メール等の文章を容易に把握可能となるように、電子メールの本文等の文章から効果的な情報を抽出するための技術に関する。   The present invention relates to a technique for extracting effective information from a text such as a text of an e-mail so that the text such as an e-mail can be easily grasped.

電子メールシステムでは、一般的な文章としての閲覧に加えて、送受信者間でやりとりした電子メールをスレッド単位で管理し閲覧することが可能であり、スレッドを構成する電子メールが数通程度であれば、利用者もスレッド内での話題が継続中なのか完了したのかを把握することは容易であるが、数十通に及ぶような場合は、話題の流れを把握するために電子メールを個々に読み直す必要があるため、話題の状態を示す要約文や重要文の掲示が有益な解決策となり得る。   In the e-mail system, in addition to browsing as general text, it is possible to manage and browse e-mail exchanged between senders and receivers in units of threads, even if there are only a few e-mails that make up the thread. For example, it is easy for a user to understand whether a topic in a thread is ongoing or completed, but if there are dozens of emails, individual emails can be sent to understand the topic flow. Therefore, posting a summary sentence or important sentence showing the topic status can be a useful solution.

このような課題に対して、利用者の効率的な電子メールの閲覧を実現するために、或いは文書管理の観点から、従来から様々な手法が提案されている。   Various techniques have been proposed for such problems in order to realize efficient browsing of electronic mail by users or from the viewpoint of document management.

例えば、統計情報に基づいて重要語を抽出して重要語を含む周辺文章を提示する手法、或いは解析を行わずに先頭部分の数行を単純表示する手法、或いは特定のキーワードを含む文章を優先的に提示する手法、等がある。   For example, priority is given to a technique that extracts important words based on statistical information and presents peripheral sentences including the important words, a technique that simply displays a few lines at the top without analysis, or a sentence that includes a specific keyword There is a method to present it automatically.

しかしながら、統計情報に基づいた重要語が必ずしも要件を示す文章を含むわけではないことや、電子メール本文の先頭部分に送信者が伝えたい要件が必ずしも記載されていることはないこと、特定のキーワードは分野によっては正常に機能しない場合がある、等の課題がある。   However, important words based on statistical information do not necessarily include a sentence indicating the requirement, and the requirement that the sender wants to convey is not necessarily described at the beginning of the email body. There are problems such as that may not function properly depending on the field.

そこで、予め定めた分割ルールに従って入力文を分割し、文の種別を判別した上で文に含まれる重要語の有無に基づいた要約文を作成する手法が開示されている(例えば、特許文献1参照)。   Therefore, a technique is disclosed in which an input sentence is divided according to a predetermined division rule, and a summary sentence is created based on the presence or absence of an important word included in the sentence after determining the type of the sentence (for example, Patent Document 1). reference).

この手法では、入力文を機器の使用に関する事項を含むテキストに限定し、分割ルールやそれに伴う重要語も予め定めておくので、重要と見なせる文を中心とした要約文を効果的に生成しやすい。   In this method, the input sentence is limited to text that includes matters related to the use of the device, and the division rules and the important words associated therewith are also determined in advance, so it is easy to effectively generate summary sentences centered on sentences that can be considered important. .

特開2012−203460号公報JP 2012-203460 A

しかしながら、特許文献1で開示されている手法を分野が特定できない電子メールを対象に適用しようとすると、分野に応じた重要語を予め定義することができないため、重要語を使用するためには統計的情報に基づいて重要語を決定することが一般的な解決手段となる。   However, if an attempt is made to apply the technique disclosed in Patent Document 1 to an e-mail whose field cannot be specified, a key word corresponding to the field cannot be defined in advance. It is a general solution to determine important words based on target information.

しかし、この場合においても、ある程度の規模の文章が蓄積されなければ、統計情報に基づく重要語としての信憑性が乏しくなる。   However, even in this case, if a sentence of a certain scale is not accumulated, the credibility as an important word based on statistical information becomes poor.

このように、予め分野が特定できない、或いは蓄積文章が少ないため、予め的確な重要語を定義することができない、等の環境においても、効果的な要約文を生成して利用者に提示することで効率的な文書管理を実施する必要がある。   In this way, it is possible to generate an effective summary sentence and present it to the user even in an environment where the field cannot be identified in advance or the accumulated important sentences cannot be defined in advance, so that it is not possible to define an accurate important word in advance. And efficient document management is necessary.

本発明は上記の課題を解決するためになされたものであり、ユーザが文章の分野に応じた要約文を精度よく作成することが可能な情報処理装置、制御方法、及びコンピュータプログラムを提供することを目的とする。   The present invention has been made to solve the above problems, and provides an information processing apparatus, a control method, and a computer program that enable a user to accurately create a summary sentence according to the field of text. With the goal.

上記目的を達成するための第1の発明は、分野に応じた文章の要約文を作成する情報処理装置であって、文章の形態素解析を行った後、前記形態素解析によって得られた文節に対して係受けの構造を解析する解析手段と、前記解析手段による解析結果を用いて、前記文章の素性を特定する素性特定手段と、前記解析手段による解析結果を用いて、前記文章の内容を特定する連続した文節を抽出する内容抽出手段と、前記素性特定手段によって特定した文章の素性と前記内容抽出手段によって抽出した連続した文節とを用いることで、分野に応じた文章の要約文を作成する要約文作成手段と、を備えることを特徴とする。   A first invention for achieving the above object is an information processing apparatus for creating a summary sentence of a sentence according to a field, and after performing a morphological analysis of a sentence, for a phrase obtained by the morphological analysis Analysis means for analyzing the structure of the dependency, feature identification means for specifying the feature of the sentence using the analysis result by the analysis means, and specifying the content of the sentence using the analysis result by the analysis means A summary sentence of a sentence corresponding to a field is created by using a content extracting means for extracting consecutive phrases and a feature of the sentence specified by the feature specifying means and a continuous phrase extracted by the content extracting means. And a summary sentence creating means.

上記目的を達成するための第2の発明は、分野に応じた文章の要約文を作成する情報処理装置の制御方法であって、文章の形態素解析を行った後、前記形態素解析によって得られた文節に対して係受けの構造を解析する解析ステップと、前記解析ステップによる解析結果を用いて、前記文章の素性を特定する素性特定ステップと、前記解析ステップによる解析結果を用いて、前記文章の内容を特定する連続した文節を抽出する内容抽出ステップと、前記素性特定ステップによって特定した文章の素性と前記内容抽出ステップによって抽出した連続した文節とを用いることで、分野に応じた文章の要約文を作成する要約文作成ステップと、を実行することを特徴とする。   A second invention for achieving the above object is a method of controlling an information processing apparatus for creating a summary sentence of a sentence according to a field, obtained after performing a morphological analysis of a sentence, and obtained by the morpheme analysis An analysis step for analyzing the structure of a dependency on a phrase, a feature specifying step for specifying a feature of the sentence using an analysis result of the analysis step, and an analysis result of the analysis step, By using a content extraction step for extracting continuous phrases specifying content, a feature of the sentence specified by the feature specifying step, and a continuous phrase extracted by the content extraction step, a sentence summary sentence according to the field And a summary sentence creating step for creating.

上記目的を達成するための第3の発明は、分野に応じた文章の要約文を作成する情報処理装置において読取実行可能なプログラムであって、前記情報処理装置を、文章の形態素解析を行った後、前記形態素解析によって得られた文節に対して係受けの構造を解析する解析手段と、前記解析手段による解析結果から前記文章の素性を特定する素性特定手段と、前記解析手段による解析結果を用いて、前記文章の内容を特定する連続した文節を抽出する内容抽出手段と、前記素性特定手段によって特定した文章の素性と前記内容抽出手段によって抽出した連続した文節とを用いることで、分野に応じた文章の要約文を作成する要約文作成手段と、して機能させることを特徴とする。   A third invention for achieving the above object is a program that can be read and executed in an information processing apparatus that creates a summary sentence of a sentence according to a field, and the information processing apparatus performs a morphological analysis of the sentence Thereafter, an analysis means for analyzing a structure of a dependency on a clause obtained by the morphological analysis, a feature specifying means for specifying the feature of the sentence from an analysis result by the analysis means, and an analysis result by the analysis means By using the content extracting means for extracting continuous phrases specifying the content of the sentence, the feature of the sentences specified by the feature specifying means and the continuous phrases extracted by the content extracting means, It is characterized by functioning as a summary sentence creating means for creating a summary sentence of the corresponding sentence.

本発明によれば、文章を解析することで得られた特徴量と、文章の分野に依存し得る語句を抽出して作成した要約文と、を対応付けることで、ユーザが、文章の分野に応じた要約文を精度よく作成することができる、といった効果を奏する。   According to the present invention, by associating the feature amount obtained by analyzing a sentence with a summary sentence created by extracting a phrase that can depend on the field of the sentence, the user can respond to the field of the sentence. It is possible to create a summary sentence with high accuracy.

本発明の実施形態における電子メール分析装置の構成例を示す図である。It is a figure which shows the structural example of the electronic mail analyzer in embodiment of this invention. 本発明の実施形態における電子メール分析装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the electronic mail analyzer in embodiment of this invention. 本発明の実施形態における電子メール分析処理のフローチャートである。It is a flowchart of the email analysis process in the embodiment of the present invention. 本発明の実施形態における電子メールの一例である。It is an example of the electronic mail in embodiment of this invention. 本発明の実施形態における原文補正処理の一例である。It is an example of the original text correction process in embodiment of this invention. 本発明の実施形態における係り受け解析処理の一例である。It is an example of the dependency analysis process in the embodiment of the present invention. 本発明の実施形態における要約文生成の一例である。It is an example of the summary sentence production | generation in embodiment of this invention. 本発明の実施形態における3つ組抽出処理のフローチャートである。It is a flowchart of the triple extraction process in the embodiment of the present invention. 本発明の実施形態における述部分析処理のフローチャートである。It is a flowchart of the predicate analysis process in the embodiment of the present invention. 本発明の実施形態における主部分析処理のフローチャートである。It is a flowchart of the principal part analysis process in embodiment of this invention. 本発明の実施形態における補助属性の一例である。It is an example of the auxiliary | assistant attribute in embodiment of this invention. 本発明の実施形態における内容語抽出処理のフローチャートである。It is a flowchart of the content word extraction process in embodiment of this invention. 本発明の実施形態における要約文生成処理のフローチャートである。It is a flowchart of the summary sentence production | generation process in embodiment of this invention. 本発明の実施形態におけるメール要約一覧画面の構成を示す構成図である。It is a block diagram which shows the structure of the mail summary list screen in embodiment of this invention. 本発明の実施形態における各処理で用いるテーブルの構成を示す構成図である。It is a block diagram which shows the structure of the table used by each process in embodiment of this invention.

以下、図面を参照して本発明の実施の形態の一例について説明する。   Hereinafter, an example of an embodiment of the present invention will be described with reference to the drawings.

図1は、本発明の実施形態における電子メール分析装置の構成を示す図である。   FIG. 1 is a diagram showing a configuration of an electronic mail analysis apparatus according to an embodiment of the present invention.

電子メール分析装置100は、メール受信部101と、辞書部102と、分析部103と、メール保存部104と、表示部105とを備え、辞書部102及びメール保存部104は後述する外部メモリ211等の記憶装置に記憶されている。   The electronic mail analysis apparatus 100 includes a mail reception unit 101, a dictionary unit 102, an analysis unit 103, a mail storage unit 104, and a display unit 105. The dictionary unit 102 and the mail storage unit 104 are external memory 211 described later. Is stored in a storage device.

メール受信部101は、広域ネットワーク網110から電子メールを受信し、受信した電子メールをメール保存部104に保存する。尚、メール保存部104には、図15に示すメール基本情報テーブルを備えており、保存する際には、電子メールを一意に識別するためのIDをキーとして保存を行う。   The mail receiving unit 101 receives an e-mail from the wide area network 110 and stores the received e-mail in the mail storage unit 104. Note that the mail storage unit 104 includes the basic mail information table shown in FIG. 15, and when storing, the ID is used to uniquely identify an email.

分析部103は、メール保存部104に保存されている電子メールを取り出し、形態素解析や構文解析に必要なデータを辞書部102から取り出しながら当該電子メールの分析を実施し、分析結果を表示部105に表示する。尚、これら一連のメール分析手法については、詳しく後述する。   The analysis unit 103 retrieves the email stored in the email storage unit 104, analyzes the email while retrieving data necessary for morphological analysis and syntax analysis from the dictionary unit 102, and displays the analysis result on the display unit 105. To display. The series of email analysis methods will be described later in detail.

次に、図1の電子メール分析装置100のハードウェア構成について、図2を用いて説明する。   Next, the hardware configuration of the electronic mail analysis apparatus 100 of FIG. 1 will be described with reference to FIG.

図中、CPU201は、システムバス204に接続される後述の各デバイスやコントローラを統括的に制御する。また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やオペレーティングシステムプログラム(以下、OS)や、電子メール分析装置100に後述する各種の処理を実行させるために必要な各種プログラムやデータ等が記憶されている。RAM202は、CPU201の主メモリ、ワークエリア等として機能する。   In the figure, a CPU 201 comprehensively controls each device and controller described later connected to a system bus 204. Further, the ROM 203 or the external memory 211 is used to execute a BIOS (Basic Input / Output System) or an operating system program (hereinafter referred to as an OS), which is a control program of the CPU 201, or various types of processing described later. Various programs and data necessary for the storage are stored. The RAM 202 functions as a main memory, work area, and the like for the CPU 201.

CPU201は、処理の実行に際して必要なプログラム等をRAM202にロードして、プログラムを実行することで後述する各種処理を実現するものである。また、入力コントローラ(入力C)205は、入力装置209からの入力を制御する。入力装置209は、例えばメカニカルキーボードやソフトウェアキーボード、タッチパネル等で構成される。ビデオコントローラ(VC)206は、表示装置210への表示を制御する。表示装置210は、例えば液晶ディスプレイ等で構成される。   The CPU 201 implements various processes to be described later by loading a program or the like necessary for executing the process into the RAM 202 and executing the program. An input controller (input C) 205 controls input from the input device 209. The input device 209 is configured by, for example, a mechanical keyboard, a software keyboard, a touch panel, or the like. A video controller (VC) 206 controls display on the display device 210. The display device 210 is configured by a liquid crystal display, for example.

メモリコントローラ(MC)207は、ブートプログラム、ブラウザソフトウエア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク(HD)やソリッドステートディスク(SSD)或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。   The memory controller (MC) 207 is stored in a hard disk (HD), solid state disk (SSD), or PCMCIA card slot for storing boot programs, browser software, various applications, font data, user files, editing files, various data, and the like. Controls access to an external memory 211 such as a compact flash (registered trademark) memory connected via an adapter.

通信I/Fコントローラ(通信I/FC)208は、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いたインターネット通信等が可能である。   A communication I / F controller (communication I / FC) 208 is connected to and communicates with an external device via a network, and executes communication control processing in the network. For example, Internet communication using TCP / IP is possible.

なお、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、表示装置210上での表示を可能としている。   Note that the CPU 201 enables display on the display device 210 by executing, for example, outline font rasterization processing on a display information area in the RAM 202.

以上が、電子メール分析装置100のハードウェア構成の説明であるが、後述する各種の処理を実行可能であれば、必ずしも図2に記載のハードウェア構成を有していなくとも構わないことは言うまでもない。   The above is the description of the hardware configuration of the electronic mail analyzing apparatus 100. Needless to say, the hardware configuration shown in FIG. 2 is not necessarily required as long as various processes described below can be performed. Yes.

次に、電子メール分析装置100における電子メール分析処理について、図3から図13を用いて、詳しく説明する。   Next, e-mail analysis processing in the e-mail analysis apparatus 100 will be described in detail with reference to FIGS.

図3は、電子メール分析処理の全体フローチャートを示す図である。電子メール分析処理では、CPU201は、メール保存部104からメールを読み込み、メールに記述されている各文章に対して、形態素解析及び構文解析を実施してから3つ組抽出処理、内容語抽出処理、要約文生成処理を実施する。その後、抽出した各データを元にラベリング処理を行って、代表要約文を決定する処理を実施する。   FIG. 3 is a diagram showing an overall flowchart of the e-mail analysis process. In the e-mail analysis process, the CPU 201 reads the e-mail from the e-mail storage unit 104, performs morphological analysis and syntactic analysis on each sentence described in the e-mail, and then performs a triple extraction process and a content word extraction process. The summary sentence generation process is performed. Thereafter, a labeling process is performed based on each extracted data, and a process for determining a representative summary sentence is performed.

電子メール分析処理は、文単位で処理を実施するため、まず、ステップS301において、電子メールを文に分割して以降の処理を実施する。文の分割については、句点、感嘆符、疑問符、連続した改行文字列等を区切り文字として扱うことで実現する。   Since the e-mail analysis process is executed in units of sentences, first, in step S301, the e-mail is divided into sentences and the subsequent processes are executed. Sentence splitting is realized by treating punctuation marks, exclamation marks, question marks, continuous newline strings, etc. as delimiters.

ステップS302では、ステップS301において分割された各文に対して形態素解析を行う。   In step S302, morphological analysis is performed on each sentence divided in step S301.

ステップS303では、原文補正処理を行う。原文補正処理は、後続の構文解析の精度を一定に保つための正規化処理であり、例えば、敬語・丁寧表現を標準形に戻す、といった処理が該当する。図5に原文補正処理の一例を示す。   In step S303, original text correction processing is performed. The original text correction process is a normalization process for keeping the accuracy of the subsequent parsing constant, and includes, for example, a process of returning honorific and polite expressions to a standard form. FIG. 5 shows an example of the original text correction process.

図5の文501において、下線部「いただけ」が「もらう」の謙譲語であるため、原文補正処理の結果、文502のように補正される。尚、補正のための情報は、ステップS302で実施した形態素解析の結果に含まれている。   In the sentence 501 of FIG. 5, the underlined part “just” is a modest word of “get”, so that the sentence is corrected as the sentence 502 as a result of the original sentence correction process. Note that the information for correction is included in the result of the morphological analysis performed in step S302.

形態素解析の結果に含まれる補正のための情報とは、敬語・丁寧表現から敬意成分を取り除いた標準系の言語へ変換するためのテーブルを用いて、原文補正処理の対象となる言語に対応する標準系の言語に該当する。この点は、既存の形態素解析で実現することが可能である。   The information for correction included in the result of morphological analysis corresponds to the language that is the target of the text correction process using a table for conversion to a standard language that excludes respect components from honorific expressions and polite expressions Corresponds to the standard language. This point can be realized by existing morphological analysis.

図3に戻って、続くステップS304で構文解析を行う。ここでは係り受け解析と呼ばれる文節間の係り先を特定する処理を実施する。係り受け解析の一例を図6に示す。   Returning to FIG. 3, syntax analysis is performed in the subsequent step S304. Here, a process called dependency analysis is performed to specify a dependency destination between clauses. An example of dependency analysis is shown in FIG.

図6は、図5の文502の係り受け解析結果を示したものである。文節601は、文節602に係り、文節602は、文節606に係ることを示している。また、文節603は、文節604に係り、文節604及び文節605は、文節606に係ることを示している。   FIG. 6 shows the dependency analysis result of the sentence 502 in FIG. The phrase 601 relates to the phrase 602, and the phrase 602 indicates that it relates to the phrase 606. Further, the phrase 603 relates to the phrase 604, and the phrase 604 and the phrase 605 indicate that it relates to the phrase 606.

下記に示す非特許文献1では、係り受け解析には以下の4つの特徴があると定義されている。
「非特許文献1」内元清貴ほか、「最大エントロピー法に基づくモデルを用いた日本語係り受け解析」、情報処理学会論文誌、Vol.40、No.9、pp.3397-3407、1999
(1)後方修飾
(2)非交差条件
(3)単一の受け要素
(4)係り先決定に前方の文脈を必要としない場合が多い
Non-Patent Document 1 shown below defines that dependency analysis has the following four characteristics.
“Non-Patent Document 1” Kiyotaka Uchimoto et al., “Japanese dependency analysis using a model based on the maximum entropy method”, Transactions of the Information Processing Society of Japan, Vol.40, No.9, pp.3397-3407, 1999
(1) Backward modification (2) Non-intersection condition (3) Single receiving element (4) In many cases, a forward context is not required for determining the destination

このような特徴を持つ係り受け解析は、CaboChaやKNP等の一般的な構文解析ツールで出力することができる。特にCaboChaは、構文解析でステップS302における形態素解析をも含めて一度に係り受け解析を実施できるツールであるため、ステップS302における形態素解析の代わりにステップS304の構文解析を実施してから、構文解析結果に含まれる形態素情報に基づいて、ステップS303の原文補正処理を実施する必要がある。   The dependency analysis having such characteristics can be output by a general syntax analysis tool such as CaboCha or KNP. In particular, CaboCha is a tool that can perform dependency analysis at once, including morphological analysis in step S302, in syntax analysis. Therefore, after performing syntax analysis in step S304 instead of morphological analysis in step S302, syntax analysis is performed. Based on the morpheme information included in the result, it is necessary to perform the original text correction process in step S303.

図3に戻って、ステップS304において構文解析を実施した時点で、入力文章に対して、形態素解析結果と構文解析結果(係り受け)の2つの解析結果を得る。ここで、これらの解析結果からステップS305の3つ組抽出処理、ステップS306の内容語抽出処理、及びステップS307の要約文生成処理を実施する。   Returning to FIG. 3, at the time when the syntax analysis is performed in step S304, two analysis results of the morphological analysis result and the syntax analysis result (dependency) are obtained for the input sentence. Here, from these analysis results, a triple extraction process in step S305, a content word extraction process in step S306, and a summary sentence generation process in step S307 are performed.

まず、ステップS305の3つ組抽出処理について、図8〜図11を用いて説明する。   First, the triple extraction process in step S305 will be described with reference to FIGS.

3つ組とは、文章の「主辞」「語形」「補助属性」の3つの素性を組として表したものと定義する。なお、素性「主辞」「語形」の定義は、前述した非特許文献1で定義されているものと同様とし、「補助属性」は、文の述部に補助的に付与される表現、例えば、否定表現(〜ない)や推量表現(〜だろう)等の表現の属性と定義する。   The triplet is defined as a combination of the three features of the “main word”, “word form”, and “auxiliary attribute” of the sentence. Note that the definitions of the features “main words” and “word forms” are the same as those defined in Non-Patent Document 1 described above, and the “auxiliary attribute” is an expression that is supplementarily given to the predicate of the sentence, for example, It is defined as an attribute of expression such as negative expression (not) or guess expression (~).

一例をあげると、文「電車が遅れた」から抽出される3つ組は(電車、遅れる、φ)であり、該当する「補助属性」が存在しない場合は、3つ組の第三項に空属性を示すφを指定する。   As an example, the triplet extracted from the sentence “Train is delayed” is (Train, Delayed, φ), and if there is no corresponding “auxiliary attribute”, the triple is Specify φ indicating the empty attribute.

また、文「電車は遅れなかった」から抽出される3つ組は、否定表現が含まれるため、(電車、遅れる、否定)となり、同様に、文「電車は遅れるだろう」は推量表現を含むため、(電車、遅れる、推量)となる。   In addition, the triple extracted from the sentence “Train was not delayed” includes negative expressions, so (Train, Delayed, Denied). Similarly, the sentence “Trains will be delayed” is a guess expression. Because it includes (train, delay, guess).

即ち、3つ組の第一項と第二項は、文の形態素から抽出してその標準形を指定し、第三項は、文の形態素列が属する補助属性クラスが指定される。なお、第三項については、複数のクラスが指定されることもあり得る(例:ないだろう → 否定・推量)。   That is, the first term and the second term of the triple are extracted from the morpheme of the sentence and the standard form is designated, and the auxiliary attribute class to which the morpheme string of the sentence belongs is designated as the third term. For the third term, multiple classes may be specified (eg, there will be no → denial / inference).

図8には、3つ組抽出処理のフローチャートを示す。ステップS801では、否定変数を初期化する。否定変数とは、否定表現が検出されたときにカウントする変数である。   FIG. 8 shows a flowchart of the triple extraction process. In step S801, a negative variable is initialized. A negative variable is a variable that counts when a negative expression is detected.

ここで、否定表現をカウントする理由は、二重否定や否定を意味する接頭辞を適切に処理するためである。後述するように、3つ組抽出処理では、主部と述部にわけて解析するため、共通の変数が必要となる。   Here, the reason for counting negative expressions is to appropriately handle prefixes that mean double negation or negation. As will be described later, in the triple extraction process, since the analysis is divided into the main part and the predicate, a common variable is required.

一例をあげると、文「この話は非現実的でない」について、接頭辞「非」と助動詞「ない」が共に否定を意味するため、結果、文「この話は現実的である」と同等と見なす必要がある。このとき、3つ組を(話、非現実的だ、ない)とするよりも(話、現実的だ、φ)と表現した方が、後続のラベリング処理においてデータ正規化の観点から正しくラベリング評価できることが期待される。   As an example, the sentence “This story is not unrealistic” is equivalent to the sentence “This story is realistic” because the prefix “non” and the auxiliary verb “none” both mean negation. Need to be considered. In this case, it is better to express the labeling correctly from the viewpoint of data normalization in the subsequent labeling process by expressing the triplet as (spoken, unrealistic, not) (speaking, realistic, φ). It is expected to be possible.

ステップS802では、述部分析処理を実施する。図9に述部分析処理のフローチャートを示す。   In step S802, predicate analysis processing is performed. FIG. 9 shows a flowchart of predicate analysis processing.

述部分析処理では、ステップS901において、ステップS304で得た構文解析結果で最終節と判定した文節を選択する。   In the predicate analysis process, in step S901, the clause determined as the last clause from the syntax analysis result obtained in step S304 is selected.

ステップS902では、選択した最終節に否定表現が含まれているかを調べる。否定表現の有無は、特定の品詞と表記からなる文法ルールを用いて決定する。例えば、文法ルール「品詞(助動詞)且つ表記(ない)」である形態素が当該文節に含まれる、というように定義され、図1の辞書部102に格納されている情報を用いて決定を行う。以後、同様なルールは、辞書部102に格納されているものとする。   In step S902, it is checked whether a negative expression is included in the selected final clause. The presence or absence of negative expression is determined using a grammatical rule consisting of a specific part of speech and notation. For example, it is defined that a morpheme having a grammatical rule “part of speech (auxiliary verb) and notation (not)” is included in the clause, and determination is performed using information stored in the dictionary unit 102 of FIG. Hereinafter, it is assumed that similar rules are stored in the dictionary unit 102.

否定表現を含む場合(ステップS902で「はい」の場合)、ステップS903へ処理を進め、ステップS903では、否定変数をひとつ増加させ、否定表現を含まない場合(ステップS902で「いいえ」の場合)、ステップS904に処理を進める。   If a negative expression is included (in the case of “Yes” in step S902), the process proceeds to step S903. In step S903, the negative variable is incremented by one, and a negative expression is not included (in the case of “No” in step S902). Then, the process proceeds to step S904.

ステップS904では、前述した最終節が引用節を伴うかを判断する。例えば、最終節が「〜と思う」「〜と考える」等の場合、引用節を伴うと判断する。   In step S904, it is determined whether the last clause described above is accompanied by a quote clause. For example, when the last section is “I think” or “I think”, it is determined that the quotation section is accompanied.

引用節を伴わない場合(ステップS904で「いいえ」の場合)、ステップS908へ処理を進め、引用節を伴う場合(ステップS904で「はい」の場合)、ステップS905へ処理を進める。   If there is no quotation section (“No” in step S904), the process proceeds to step S908. If a quotation section is included (“Yes” in step S904), the process proceeds to step S905.

ステップS905では、引用節を最終節の代わりに選択し、ステップS906及びステップS907において、ステップS902及びステップS903で実施した処理と同等の処理を、引用節に対して実施する。   In step S905, a citation section is selected instead of the last section, and in steps S906 and S907, processing equivalent to the processing performed in steps S902 and S903 is performed on the citation section.

ステップS908では、最終的に選択した文節(最終節)を述部文節として抽出する。   In step S908, the finally selected clause (final clause) is extracted as a predicate clause.

ステップS909では、述部文節の補助属性を判断する。図11に補助属性の一例を示す。前述したように、述部文節に図11に示したような表現が含まれていれば、当該属性を補助属性として選択する。なお、これらの補助属性の一覧は、特に文章の分野に依存することがないため(日本語として不変な部分であるため)、予め人手で定義したパターンマッチング辞書を準備することができる。   In step S909, the auxiliary attribute of the predicate clause is determined. FIG. 11 shows an example of auxiliary attributes. As described above, if the predicate clause includes an expression as shown in FIG. 11, the attribute is selected as an auxiliary attribute. Since the list of auxiliary attributes does not depend on the text field in particular (because it is an invariable part as Japanese), a pattern matching dictionary defined in advance by hand can be prepared.

以上で述部分析処理が終了し、図8に戻って、ステップS803に進み、ステップS803では、3つ組の述部、即ち第二項にステップS908で選択した文節の標準形をセットする。   This completes the predicate analysis processing, and returns to FIG. 8 and proceeds to step S803. In step S803, the standard form of the clause selected in step S908 is set in the triple predicate, that is, the second term.

続いて、ステップS804では、主部分析処理を実施する。主部分析処理では、前述した述部の主語になる部分を特定する処理となる。主部分析処理について、図10を用いて説明する。   Subsequently, in step S804, main part analysis processing is performed. In the main part analysis process, the part that becomes the subject of the predicate described above is specified. The main part analysis process will be described with reference to FIG.

図10に主部分析処理のフローチャートを示す。主部分析処理は、主部がどの文節に含まれているかを構文解析結果から特定することを目的とする。   FIG. 10 shows a flowchart of main part analysis processing. The main part analysis processing is intended to identify in which clause the main part is included from the syntax analysis result.

まず、ステップS1001では、前述したステップS908で決定した述部節を選択する。続くステップS1002で選択した述部節の前の文節を、係り受け構造に関係なく選択する。   First, in step S1001, the predicate clause determined in step S908 described above is selected. The clause preceding the predicate clause selected in the subsequent step S1002 is selected regardless of the dependency structure.

ステップS1003では、前節が存在しなければ(ステップS1003で「いいえ」の場合)、主部分析を終了する。この場合、述部に対応する主部が存在しない文となる(例えば、命令形等)。前節が存在する場合(ステップS1003で「はい」の場合)、ステップS1004へ処理を進める。   In step S1003, if the previous section does not exist (in the case of “No” in step S1003), the main part analysis is terminated. In this case, the sentence does not have a main part corresponding to the predicate (for example, an instruction form). If the previous section exists (if “Yes” in step S1003), the process proceeds to step S1004.

ステップS1004では、当該文節がステップS1001で選択した述部の文節に係る文節である場合(係り受け構造で係り先として判定されている場合)、ステップS1005に処理を進め、述部の文節の係らない文節である場合(係り受け構造で係り先ではない場合)、ステップS1002に戻り、さらに前節を係り受け構造に関係なく選択して、ステップS1003及びステップS1004を繰り返す。このように文節単位で文の後ろから前に向けて探索していき、当該文節が述部に係るかどうかのみを判断することで、述部に対応する主部を探索する。   In step S1004, when the clause is a clause related to the clause of the predicate selected in step S1001 (when determined as a dependency destination in the dependency structure), the process proceeds to step S1005, and the clause of the predicate clause is determined. If there is no clause (when the dependency structure is not a dependency destination), the process returns to step S1002, and the previous paragraph is selected regardless of the dependency structure, and steps S1003 and S1004 are repeated. In this way, the search is performed from the back to the front of the sentence in units of clauses, and the main part corresponding to the predicate is searched by determining only whether the relevant phrase relates to the predicate.

ステップS1005では(ステップS1004で述部に係る文節であると判断した場合)、当該文節が格助詞で終了しているかを判断する。格助詞で終了している場合(ステップS1005で「はい」の場合)、ステップS1007へ処理を進め、格助詞で終了していない場合(ステップS1005で「いいえ」の場合)、ステップS1006に処理を進める。   In step S1005 (when it is determined in step S1004 that the clause is related to the predicate), it is determined whether the clause ends with a case particle. If it ends with a case particle (in the case of “Yes” in step S1005), the process proceeds to step S1007. If it does not end with a case particle (in the case of “No” in step S1005), the process proceeds to step S1006. Proceed.

ステップS1006では、当該文節が係助詞「は」で終了しているかを判断する。係助詞「は」で終了していない場合は、ステップS1002に戻り、前述したように、さらに文節を前方向に探索する。係助詞「は」で終了している場合(ステップS1006で「はい」の場合)、ステップS1005における格助詞で終了しているものと同等とみなして、ステップS1007へ処理を進める。   In step S1006, it is determined whether or not the phrase ends with the particle “ha”. If it is not ended with the particle “ha”, the process returns to step S1002 to further search forward for the phrase as described above. When it ends with the particle “ha” (in the case of “yes” at step S1006), it is regarded as equivalent to the case with the case particle in step S1005, and the process proceeds to step S1007.

ステップS1007では(ステップS1005で当該文節が格助詞で終了している、或いはステップS1006で当該文節が係助詞「は」で終了している、と判断した場合)、当該文節に主部が存在するとし、主部抽出を実施する。主部は、当該文節内で検出した格助詞或いは係助詞「は」の、直前の名詞・固有名詞・複合語・接頭辞等からなる連続した形態素列という文法ルールで定義されている。   In step S1007 (when it is determined in step S1005 that the clause ends with a case particle, or in step S1006 it is determined that the clause ends with a particle “ha”), the main part of the clause is present. The main part is extracted. The main part is defined by a grammatical rule of a continuous morpheme sequence consisting of the immediately preceding noun, proper noun, compound word, prefix, etc. of the case particle or the particle “ha” detected in the clause.

ステップS1008では、抽出した主部に否定接頭辞が含まれているかを判断する。否定接頭辞は「非」や「未」が該当する。当該接頭辞が含まれている場合(ステップS1008で「はい」の場合)、ステップS1009へ処理を進め、否定変数を増加させて、主部抽出処理を終了し、当該接頭辞を含まない場合(ステップS1008で「いいえ」の場合)、そのまま主部分析処理を終了する。   In step S1008, it is determined whether a negative prefix is included in the extracted main part. The negative prefix corresponds to “non” or “not yet”. If the prefix is included (in the case of “Yes” in step S1008), the process proceeds to step S1009, the negative variable is increased, the main part extraction process is terminated, and the prefix is not included ( In the case of “No” in step S1008), the main part analysis processing is ended as it is.

図8に戻って、ステップS805に進み、主部分析処理で抽出した主部を3つ組の第一項に設定する。   Returning to FIG. 8, the process proceeds to step S <b> 805, and the main part extracted in the main part analysis process is set as a first term of a triple.

ステップS806に進み、否定表現が成立するかどうかを判断する。前述した述部分析処理と主部分析処理を通じて、否定表現が奇数回の場合は、否定表現が成立するとみなして(ステップS806で「はい」の場合)、ステップS807へ処理を進め、ステップS807では、3つ組の第三項に補助属性「否定」を設定してステップS808に処理を進め、否定表現が成立しない場合(ステップS806で「いいえ」の場合)、そのままステップS808へ処理を進める。   In step S806, it is determined whether a negative expression is established. If the negative expression is an odd number of times through the predicate analysis process and the main part analysis process described above, it is considered that the negative expression is satisfied (in the case of “Yes” in step S806), and the process proceeds to step S807. In step S807, The auxiliary attribute “deny” is set in the third term of the triple, and the process proceeds to step S808. If the negative expression is not satisfied (in the case of “no” in step S806), the process proceeds to step S808 as it is.

ステップS808では、図9のステップS909において他の補助属性が抽出されているかを確認する。補助属性が抽出されている場合(ステップS909で「はい」の場合)、ステップS809へ処理を進め、3つ組の第三項の補助属性を更新して、3つ組抽出処理を終了し、補助属性が抽出されていない場合(ステップS909で「いいえ」の場合)、そのまま3つ組抽出処理を終了する。   In step S808, it is confirmed whether another auxiliary attribute is extracted in step S909 of FIG. When the auxiliary attribute has been extracted (in the case of “Yes” in step S909), the process proceeds to step S809, the auxiliary attribute of the third term of the triple is updated, and the triple extraction process is terminated. If the auxiliary attribute has not been extracted (“No” in step S909), the triple extraction process is terminated.

図3に戻って、次に、ステップS306の内容語抽出処理について、図6及び図12を用いて説明する。   Returning to FIG. 3, the content word extraction processing in step S306 will be described with reference to FIGS.

図12は、内容語抽出処理を示すフローチャートである。   FIG. 12 is a flowchart showing content word extraction processing.

内容語とは、文章中に記述された名詞句を中心とした連続した形態素列を示し、その文章の内容を示す語句を意味する。   The content word indicates a continuous morpheme string centering on a noun phrase described in the sentence, and means a phrase indicating the contents of the sentence.

まず、ステップS1201からステップS1203にかけて、すべての文節から内容語を抽出する。このとき、係り受け構造は考慮せずに、どの文節にどの内容語が含まれているかのみを関係付けする。   First, in step S1201 to step S1203, content words are extracted from all phrases. At this time, only the content words included in which clauses are related without considering the dependency structure.

関連付けのための文節の位置は、文節番号で管理され、前記文節番号と前記内容語の組を第1内容語組と定義する。第1内容語組の第一項が文節番号を示し、第二項が抽出された内容語を示す。   The position of the phrase for association is managed by a phrase number, and the set of the phrase number and the content word is defined as a first content word set. The first term of the first content word set indicates the phrase number, and the second term indicates the extracted content word.

ステップS1202における内容語を抽出する処理では、予め禁止語辞書を用意し、その辞書に含まれる語句は内容語として抽出しない。一例をあげると、「これ」「あれ」「それ」等の指示語や、「ところ」「もの」「こと」等の抽象的な意味を持つ語句等、文章の分野に依存しない、且つ具体的な事象を示さない語句を中心に登録されている。   In the process of extracting content words in step S1202, a prohibited word dictionary is prepared in advance, and words included in the dictionary are not extracted as content words. For example, specific words that do not depend on the field of text, such as directive words such as “this”, “that”, “it”, and words with abstract meanings such as “where” “thing” “thing”. It is registered centering on words and phrases that do not indicate an unusual event.

図6を用いて、第1内容語組の一例をあげる。内容語の定義を名詞、複合語、固有名詞、形容詞、あるいは形容動詞と助詞「の」が連続した形態素列とした場合、文「次回の/ミーティングですが、/下記の/日程で/お時間/もらえないでしょうか?」からは、第1内容語組として(1、次回のミーティング)と(3、下記の日程)及び(5、時間)の3つの第1内容語組が抽出される。   An example of the first content word set is given using FIG. If the content word is defined as a noun, compound word, proper noun, adjective, or an adjective verb and the particle "no" in a continuous morpheme sequence, the sentence "next / meeting, but / the following / schedule / time The first content word group of (1, the next meeting) and (3, the following schedule) and (5, time) are extracted as the first content word group.

図12に戻って、続いてステップS1204に進み、ステップS1204からステップS1210にかけて、前記第1内容語組を係り受け構造に従って出力する処理を実施する。   Returning to FIG. 12, the process proceeds to step S1204, and the process of outputting the first content word set according to the dependency structure is performed from step S1204 to step S1210.

係り受け構造に従って出力するとは、係り受け構造を木構造と見なすとき、葉から根に向かって探索することを示す。前述した図6における係り受け構造では、葉を示す文節は、文節601、文節603、文節605であり、根を示す文節は最終文節である文節606になる。   Output according to the dependency structure means that when the dependency structure is regarded as a tree structure, a search is performed from the leaf toward the root. In the dependency structure in FIG. 6 described above, the clauses indicating leaves are the clause 601, the clause 603 and the clause 605, and the clause indicating the root is the clause 606 which is the final clause.

ステップS1204では、葉の文節から開始し、ステップS1205では、第2内容語組を初期化する。第2内容語組とは、文節を係り受け構造に従って遷移したときに得られる内容語の組であり、前記第1内容語から得られる。ステップS1205では、第2内容語組を空にする。   In step S1204, the process starts from a leaf phrase. In step S1205, the second content word set is initialized. The second content word set is a set of content words obtained when a phrase is transitioned according to the dependency structure, and is obtained from the first content word. In step S1205, the second content word set is emptied.

ステップS1206では、当該文節が最終文節であるかどうかを確認する。最終文節である場合(ステップS1206で「はい」の場合)、ステップS1209へ処理を進め、最終文節でない場合(ステップS1206で「いいえ」の場合)、ステップS1207へ処理を進め、ステップS1207では、第1内容語組から当該文節番号を第一項に持つものについて、当該第1内容語組の第二項に記述した内容語を第2内容語組に追加する。   In step S1206, it is confirmed whether the clause is the final clause. If it is the last phrase (“Yes” in step S1206), the process proceeds to step S1209. If it is not the last phrase (“No” in step S1206), the process proceeds to step S1207. For one content word set having the clause number in the first term, the content word described in the second term of the first content word set is added to the second content word set.

ステップS1208では、当該文節から係り受け先の文節に遷移して、ステップS1206に戻り、同様に当該文節に含まれる内容語を第2内容語組に追加していく。   In step S1208, the transition from the clause to the dependency clause is made, and the processing returns to step S1206, and the content words included in the clause are similarly added to the second content word set.

ステップS1206で「はい」の場合、即ち最終文節まで遷移したとき、ステップS1209に処理を進め、第2内容語組を出力し、ステップS1210では、残りすべての葉の文節に対して処理を繰り返すために、ステップS1204に戻る。すべての葉の文節について解析が終了したとき、内容語抽出処理を終了する。   In the case of “Yes” in step S1206, that is, when the transition is made to the last phrase, the process proceeds to step S1209, the second content word set is output, and in step S1210, the process is repeated for all remaining leaf phrases. Then, the process returns to step S1204. When the analysis is completed for all leaf clauses, the content word extraction process is terminated.

図6を用いて、第2内容語組の一例をあげる。前述した第1内容語組から係り受け構造に従って第2内容語組を抽出すると、(次回のミーティング)、(下記の日程)、(時間)の3つの第2内容語組が得られる。   An example of the second content word set will be given with reference to FIG. When the second content word group is extracted from the first content word group according to the dependency structure, three second content word groups (next meeting), (the following schedule), and (time) are obtained.

このように係り受け構造に従って内容語を組として出力することで、例えば併記記述のような、実際には関連性のない文節間において、複数の内容語を共起関係として抽出することを抑制することができ、より精度の高い解析結果を得られることができる。   By outputting the content words as a set according to the dependency structure in this way, it is possible to suppress the extraction of a plurality of content words as a co-occurrence relationship between clauses that are not actually related, such as parallel descriptions. And an analysis result with higher accuracy can be obtained.

図3に戻って、次に、ステップS307の要約文生成処理について、図7及び図13を用いて説明する。   Returning to FIG. 3, the summary sentence generation processing in step S307 will be described with reference to FIGS.

図13は、要約文生成処理を示すフローチャートである。   FIG. 13 is a flowchart showing summary sentence generation processing.

ステップS1301では、出力を格納する領域を初期化しておき、ステップS1302では、最終文節の文節番号を格納領域に追加する。もちろん、当該文節の文節文字列を追加してもよいが、原文に対しての順序(或いは位置情報)が明確になっていればよい。   In step S1301, the area for storing the output is initialized, and in step S1302, the phrase number of the last phrase is added to the storage area. Of course, the phrase character string of the phrase may be added, but it is sufficient that the order (or position information) with respect to the original sentence is clear.

ステップS1303では、最終文節が引用節を伴うかどうかを確認する。引用節の判定基準は、3つ組抽出処理(ステップS904)で前述している。   In step S1303, it is confirmed whether or not the last phrase is accompanied by a quotation. The criterion for determining the quotation is described in the triple extraction process (step S904).

引用節を伴わない場合(ステップS1303で「いいえ」の場合)、ステップS1305へ処理を進め、引用節を伴う場合(ステップS1303で「はい」の場合)、ステップS1304へ処理を進め、ステップS1304では、引用節である最終文節の前文節の文節番号を前記格納領域に追加する。   If there is no quote section (“No” in step S1303), the process proceeds to step S1305. If a quote section is included (“Yes” in step S1303), the process proceeds to step S1304. Then, the clause number of the previous clause of the last clause which is a quote clause is added to the storage area.

ステップS1305からステップS1308の処理では、前記格納領域に最後に追加した文節より前にあるすべての文節について、最後に追加した文節に係る文節であるかどうかを調べる。   In the processing from step S1305 to step S1308, it is checked whether or not all the clauses before the last added clause in the storage area are clauses related to the last added clause.

即ち、最終文節が引用節を伴うである場合は、最終文節のひとつ前の文節に係る文節を、最終文節が引用節を伴わない場合は、最終文節に係る文節が対象となる。   That is, when the final clause is accompanied by a quoted clause, the clause related to the clause immediately before the final clause is targeted, and when the final clause is not accompanied by a quoted clause, the clause related to the final clause is targeted.

ステップS1306では、当該文節の係り受け先が前記格納領域に記録されていない場合(ステップS1306で「いいえ」の場合)、ステップS1308へ処理を進め、当該文節の係り受け先が前記格納領域に記録されていれば(ステップS1306で「はい」の場合)、ステップS1307へ処理を進め、ステップS1307では、当該文節を前記格納領域に追加する。   In step S1306, if the dependency destination of the clause is not recorded in the storage area (if “NO” in step S1306), the process proceeds to step S1308, and the dependency destination of the clause is recorded in the storage area. If so (if “Yes” in step S1306), the process proceeds to step S1307, and in step S1307, the clause is added to the storage area.

ステップS1309では、前記格納領域に追加した文節の中で、前述した内容語抽出処理で得た内容語の一部を含むものを検出する。内容語の一部を持つ文節である場合(ステップS1310で「はい」の場合)、ステップS1311へ処理を進め、ステップS1311では、内容語を完全に含むように当該文節に係る前文節を前記格納領域に追加し、それ以外の場合(ステップS1310で「いいえ」の場合)は、ステップS1312へ処理を進める。   In step S1309, the phrase added to the storage area is detected including a part of the content word obtained by the content word extraction process described above. If the phrase has a part of the content word (“Yes” in step S1310), the process proceeds to step S1311. In step S1311, the previous phrase related to the phrase is stored so as to completely include the content word. If it is added to the area and otherwise (“No” in step S1310), the process proceeds to step S1312.

ステップS1313では、前記格納領域に追加された文節を、出現位置の順序で整列して要約文を生成する。文節番号のみを保存していた場合は、文節番号を整列して文節番号に対応した文節文字列で要約文を生成すればよい。   In step S1313, the phrases added to the storage area are arranged in the order of appearance positions to generate a summary sentence. If only the clause numbers are stored, the summary numbers may be generated by arranging the clause numbers and using the clause character strings corresponding to the clause numbers.

要約文生成の一例を、図7を用いて説明する。   An example of summary sentence generation will be described with reference to FIG.

係り受け構造として図7のような構造を持つ文「こちらの都合で申し訳ありませんが、11月の打ち合わせで、年内は最後にしたいと思います」を例に説明する。   A sentence having a structure as shown in FIG. 7 as a dependency structure will be described as an example, “I'm sorry for the convenience of this, but I would like to make it the end of the year by a meeting in November”.

まず、最終文節である文節709「思います」が格納領域に保存される。「思います」は、引用節を伴うため、直前の文節708「したいと」も格納領域に保存される。   First, the final phrase 709 “I think” is stored in the storage area. Since “I think” is accompanied by a quotation, the immediately preceding phrase 708 “I want to” is also saved in the storage area.

次に、文節708より前にあるすべての文節について、文節708に係るものを追加する。文節703「申し訳ありませんが、」、文節705「打ち合わせで、」及び文節707「最後に」の3つの文節が該当する。   Next, for all the clauses before the clause 708, those related to the clause 708 are added. The phrase 703 “I am sorry,” the phrase 705 “In a meeting,” and the phrase 707 “Finally” correspond.

さらに残りの文節の中で内容語を分断している文節であり、且つ一部が格納領域に保存されているものが、文節704「11月の」と文節705「打ち合わせで、」であるため、文節704を追加する。理由は、文節704「11月の」と文節705「打ち合わせで、」は、内容語の定義として、名詞、複合語、固有名詞、形容詞、あるいは形容動詞と助詞「の」が連続した形態素列を定義の例としているためである。   Further, the remaining clauses are divided into content words, and some of them are stored in the storage area because the clause 704 “November” and the clause 705 “Meeting” , Add a clause 704. The reason is that the phrase 704 “November” and the phrase 705 “In a meeting” are nouns, compound words, proper nouns, adjectives, or a morpheme string in which the adjective verb and the noun “no” are continuous This is because it is an example of definition.

以上の処理の結果、要約文「申し訳ありませんが、11月の打ち合わせで、最後にしたいと思います」を生成する。   As a result of the above processing, a summary sentence “Sorry, I would like to make it last in the meeting in November” is generated.

図3に戻って、ステップS302の形態素解析からステップS307の要約文生成までを、すべての文章に対して実施する。   Returning to FIG. 3, the processes from the morphological analysis in step S302 to the summary sentence generation in step S307 are performed for all sentences.

ステップS309では、電子メールの各文章がどの構成を担っているかをラベリングする。   In step S309, it is labeled which configuration each sentence of the e-mail bears.

これは、電子メールは予め分野が特定できない代わりに、その文章構成が類似していることが多く、特にビジネスで使われる電子メールでは、宛先の記載、送信者の記載、挨拶文、本題、結び文、署名、というような構成を持つことが多く見られる。   This is because e-mail cannot be identified in advance, but the structure of the text is often similar. Especially in e-mail used in business, the description of the recipient, the description of the sender, the greeting, the main subject, the conclusion It is often seen that it has a structure such as a sentence and a signature.

従って、電子メールを構成する文章が「どこで構成が変わる(区切られる)のか」「その部分がどの構成なのか」を判定するために、各文章から抽出した前記3つ組、及び前記第2内容語組や前記形態素情報等を各文章の特徴量と捉えることで、既存の条件付き確率場モデルを使用して判定することができる。   Therefore, the triplet extracted from each sentence, and the second content, in order to determine “where the composition is changed (separated)” and “which part is the composition” By grasping the word set, the morpheme information, and the like as the feature amount of each sentence, it can be determined using an existing conditional random field model.

本ステップでは、各ステップで作成した要約に関する情報をメール保存部104に備えたメール要約情報テーブル(図15)に記憶する。   In this step, information on the summary created in each step is stored in the mail summary information table (FIG. 15) provided in the mail storage unit 104.

メール要約情報テーブルは、メール基本情報テーブルのメールIDと対応するメールID、メールIDに対する枝番、3つ組抽出処理で抽出した各項目を記憶する3つ組項目、ラべリングしたラベル、要約文、要約を行う前のメール本文を表すメール本文(要約元文)を含んで構成されている。   The mail summary information table includes a mail ID corresponding to the mail ID in the mail basic information table, a branch number for the mail ID, a triple item for storing each item extracted by the triple extraction process, a labeled label, a summary It includes a mail text (summary original text) that represents the text of the mail before summarization.

メール要約情報テーブルには、1つの電子メールに対して、複数の文章が存在する場合は、各文章に対して要約に関する情報が生成されるので、其々のレコードを記憶することができる。各文章を一意に識別するために枝番を用いている。   In the mail summary information table, when there are a plurality of sentences for one electronic mail, information regarding the summary is generated for each sentence, so that each record can be stored. Branch numbers are used to uniquely identify each sentence.

ステップS310では、代表要約文を選択する。前記ラベリング処理で「本題」部分と判定した文章を対象にして選出する。このとき、対象文章の3つ組の第二項及び第三項を参照することで、要約文の選択優先度を操作する。   In step S310, a representative summary sentence is selected. A sentence that is determined to be a “main subject” part in the labeling process is selected as a target. At this time, the selection priority of the summary sentence is manipulated by referring to the second and third terms of the triple of the target sentence.

図4を用いて選択優先度の説明をする。   The selection priority will be described with reference to FIG.

図4に電子メールの一例を示す。電子メール401の中で本題402が判定されたとき、その内容を構成する文403、文404、及び文405を考える。各文から得られる3つ組は、3つ組406、3つ組407、及び3つ組408となる。   FIG. 4 shows an example of electronic mail. When the main subject 402 is determined in the electronic mail 401, a sentence 403, a sentence 404, and a sentence 405 constituting the content are considered. A triple obtained from each sentence is a triple 406, a triple 407, and a triple 408.

このとき、3つ組や第2内容語組等の特徴から選択優先度を決めることができる。例えば、3つ組の第三項に応じて選択優先度を予め決定しておくことで、どの文を選択するかを決めておくことができる。このような優先順位は人手で予め決定しておくこともできるし、或いは機械学習や統計的手法を用いて学習データとして準備することもできる。   At this time, the selection priority can be determined from features such as a triplet or a second content word set. For example, it is possible to determine which sentence is selected by determining the selection priority in advance according to the third term of the triple. Such priorities can be determined manually in advance, or can be prepared as learning data using machine learning or statistical techniques.

図4に示す一例では、要回答を必要とする「質問」に選択優先度を高く設定されている場合、文403が選択されて、代表要約文「次回のミーティングですが、下記の日程でお時間もらえますか?」を得る。このような選択優先度を用いることで、文章の順序が変わったり、電子メールの文面が綺麗に整形されたりしていなくても、正しく代表要約文を選択できるという効果がある。   In the example shown in FIG. 4, when a high priority is set for a “question” that requires an answer, the sentence 403 is selected and the representative summary sentence “This is the next meeting. Can you give me time? " By using such a selection priority, there is an effect that the representative summary sentence can be correctly selected even if the order of the sentences is changed or the text of the electronic mail is not neatly shaped.

また、代表要約文はただ1つを選ぶ必要性はなく、選択優先度の順位や算出されたスコア等を参照して選択する手法や、前述した一例では「日程に関する質問」なので、次行に記述された指定日時の行の3つ組を「日時」と判定することで、指定日時を含めて選択表示するという手法を適用しても良い。   In addition, there is no need to select only one representative summary sentence. The method of selecting with reference to the order of priority of selection and the calculated score, etc. A method of selecting and displaying the specified date and time by determining the triplet of the specified date and time lines as “date and time” may be applied.

更に、本発明で求めた電子メールの要約に関する情報は、図14に示すメール要約一覧画面1400に表示することが可能である。   Furthermore, the information regarding the summary of the electronic mail obtained in the present invention can be displayed on the mail summary list screen 1400 shown in FIG.

メール要約一覧画面1400は、メールの要約に関する情報を表示するための要約一覧表示領域1401、要約一覧表示領域1401に対して、ラベルを用いて要約した文章を絞り込んで表示するためのラベルリスト1402、また、要約一覧表示領域1401に対して、選択優先度を用いて要約した文章を絞り込んで表示するための選択優先度リスト1403を備えている。   The mail summary list screen 1400 includes a summary list display area 1401 for displaying information related to mail summaries, a label list 1402 for narrowing down and displaying sentences summarized using labels in the summary list display area 1401, The summary list display area 1401 is provided with a selection priority list 1403 for narrowing and displaying sentences summarized using the selection priority.

ユーザは、要約一覧表示領域1401に表示された要約に関する情報を絞り込んで参照を行いたい際に、例えば、選択優先度を用いて絞り込みを行う際には、入力装置209を用いて選択優先度リスト1403を押下すると、設定した選択優先度がリスト表示され、所望する選択優先度を、入力装置209を用いて押下することで、要約に関する情報を絞り込んで表示を行うことが可能である。   When the user wants to narrow down and refer to information related to the summary displayed in the summary list display area 1401, for example, when narrowing down using the selection priority, the selection priority list using the input device 209 is used. When the user presses 1403, the set selection priority is displayed in a list, and by pressing the desired selection priority using the input device 209, it is possible to narrow down and display information about the summary.

尚、メール要約一覧画面1400は、メール要約情報テーブルに記憶された要約に関する情報を用いて表示を行うが、メール要約情報テーブルの各項目名とメール要約一覧画面1400の項目名は基本的に対応しているが、メール要約情報テーブルの3つ組項目は、メール要約一覧画面1400の選択優先度に対応しており、3つ組項目の全ての項目を選択優先度に其々表示しても良いし、3つ組項目から任意の数の項目を表示しても良い。尚、本実施形態では、3つ組項目の第三項の補助属性を選択優先度に表示している。   The mail summary list screen 1400 is displayed using information related to the summary stored in the mail summary information table. Each item name of the mail summary information table and the item name of the mail summary list screen 1400 basically correspond to each other. However, the triple item of the mail summary information table corresponds to the selection priority of the mail summary list screen 1400, and even if all items of the triple item are displayed as the selection priority, respectively. It is also possible to display an arbitrary number of items from the triple item. In the present embodiment, the auxiliary attribute of the third item of the triplet item is displayed as the selection priority.

また、メール基本情報テーブルに記憶された電子メールの基本情報が、一覧表示された画面(不図示)に対して、要約文を参照したい場合、その電子メールを、入力装置209を用いて、選択、あるいは選択した状態で要約文を参照する旨を指示入力するためのボタン(不図示)を押下することで、メール要約一覧画面1400を表示し、選択した電子メールに関する要約文を要約一覧表示領域1401に表示することが可能である。この場合、選択した電子メールのメールIDを用いてメール要約情報テーブルに記憶された要約に関する情報を取得してメール要約一覧画面1400へ表示する。   In addition, when the user wants to refer to a summary sentence on a screen (not shown) in which basic information of the e-mail stored in the e-mail basic information table is displayed, the e-mail is selected using the input device 209. Or, by pressing a button (not shown) for inputting an instruction to refer to the summary text in the selected state, the mail summary list screen 1400 is displayed, and the summary text regarding the selected electronic mail is displayed in the summary list display area. 1401 can be displayed. In this case, information related to the summary stored in the email summary information table is acquired using the email ID of the selected electronic mail and displayed on the email summary list screen 1400.

以上、本発明に依れば、文章を解析することで得られた特徴量と、文章の分野に依存し得る語句を抽出して作成した要約文と、を対応付けることで、ユーザが、文章の分野に応じた要約文を精度よく作成することができる。   As described above, according to the present invention, by associating the feature amount obtained by analyzing the sentence with the summary sentence created by extracting the words that can depend on the field of the sentence, the user can A summary sentence according to the field can be created with high accuracy.

以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様を取ることが可能であり、具体的には、複数の機器から構成するシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。   Although the embodiments have been described in detail above, the present invention can take an embodiment as, for example, a system, an apparatus, a method, a program, or a storage medium, and specifically includes a plurality of devices. The present invention may be applied to a system that performs such a process, or may be applied to an apparatus that includes a single device.

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な内容で構成されることは言うまでもない。   It should be noted that the configuration and contents of the various data described above are not limited to this, and it is needless to say that they are configured with various contents according to applications and purposes.

また、本発明は、システム或いは装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記憶媒体を該システム或いは装置に読み出すことによって、そのシステム或いは装置が、本発明の効果を享受することが可能となる。   Needless to say, the present invention can also be applied to a case where the present invention is achieved by supplying a program to a system or apparatus. In this case, by reading a storage medium storing a program represented by software for achieving the present invention into the system or apparatus, the system or apparatus can enjoy the effects of the present invention.

さらに、本発明を達成するためのソフトウェアによって表されるプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム或いは装置が、本発明の効果を享受することが可能となる。   Furthermore, by downloading and reading a program represented by software for achieving the present invention from a server, database, etc. on a network using a communication program, the system or apparatus can enjoy the effects of the present invention. It becomes.

なお、上述した各実施形態及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。 In addition, all the structures which combined each embodiment mentioned above and its modification are also included in this invention.

100 電子メール分析装置
101 メール受信部
102 辞書部
103 分析部
104 メール保存部
105 表示部
110 広域ネットワーク網
201 CPU
202 RAM
203 ROM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/F(インターフェース)コントローラ
209 入力装置
210 表示装置
211 外部メモリ
DESCRIPTION OF SYMBOLS 100 E-mail analyzer 101 Mail receiving part 102 Dictionary part 103 Analysis part 104 Mail storage part 105 Display part 110 Wide area network 201 CPU
202 RAM
203 ROM
204 System Bus 205 Input Controller 206 Video Controller 207 Memory Controller 208 Communication I / F (Interface) Controller 209 Input Device 210 Display Device 211 External Memory

Claims (3)

分野に応じた文章の要約文を作成する情報処理装置であって、
文章の形態素解析を行った後、前記形態素解析によって得られた文節に対して係受けの構造を解析する解析手段と、
前記解析手段による解析結果を用いて、前記文章の素性を特定する素性特定手段と、
前記解析手段による解析結果を用いて、前記文章の内容を特定する連続した文節を抽出する内容抽出手段と、
前記素性特定手段によって特定した文章の素性と前記内容抽出手段によって抽出した連続した文節とを用いることで、分野に応じた文章の要約文を作成する要約文作成手段と、
を備えることを特徴とする情報処理装置。
An information processing apparatus for creating a summary sentence of a sentence according to a field,
After performing morphological analysis of the sentence, analysis means for analyzing the structure of the dependency on the clause obtained by the morphological analysis;
Using the analysis result by the analysis means, the feature specifying means for specifying the feature of the sentence;
Content extraction means for extracting continuous phrases that specify the content of the sentence using the analysis result by the analysis means;
A summary sentence creating means for creating a summary sentence of a sentence according to a field by using the feature of the sentence specified by the feature specifying means and a continuous phrase extracted by the content extracting means;
An information processing apparatus comprising:
分野に応じた文章の要約文を作成する情報処理装置の制御方法であって、
文章の形態素解析を行った後、前記形態素解析によって得られた文節に対して係受けの構造を解析する解析ステップと、
前記解析ステップによる解析結果を用いて、前記文章の素性を特定する素性特定ステップと、
前記解析ステップによる解析結果を用いて、前記文章の内容を特定する連続した文節を抽出する内容抽出ステップと、
前記素性特定ステップによって特定した文章の素性と前記内容抽出ステップによって抽出した連続した文節とを用いることで、分野に応じた文章の要約文を作成する要約文作成ステップと、
を実行することを特徴とする情報処理装置の制御方法。
A method of controlling an information processing apparatus that creates a summary sentence of a sentence according to a field,
After performing a morphological analysis of the sentence, an analysis step for analyzing the structure of the dependency on the clause obtained by the morphological analysis;
Using the analysis result of the analysis step, a feature specifying step for specifying the feature of the sentence;
Using the analysis result of the analysis step, a content extraction step for extracting continuous phrases that specify the content of the sentence;
A summary sentence creating step for creating a summary sentence of a sentence according to a field by using a feature of the sentence identified by the feature identifying step and a continuous phrase extracted by the content extracting step;
A method for controlling an information processing apparatus, characterized by:
分野に応じた文章の要約文を作成する情報処理装置において読取実行可能なプログラムであって、
前記情報処理装置を、
文章の形態素解析を行った後、前記形態素解析によって得られた文節に対して係受けの構造を解析する解析手段と、
前記解析手段による解析結果から前記文章の素性を特定する素性特定手段と、
前記解析手段による解析結果を用いて、前記文章の内容を特定する連続した文節を抽出する内容抽出手段と、
前記素性特定手段によって特定した文章の素性と前記内容抽出手段によって抽出した連続した文節とを用いることで、分野に応じた文章の要約文を作成する要約文作成手段と、
して機能させることを特徴とするプログラム。
A program that can be read and executed by an information processing device that creates a summary sentence of a sentence according to a field,
The information processing apparatus;
After performing morphological analysis of the sentence, analysis means for analyzing the structure of the dependency on the clause obtained by the morphological analysis;
A feature specifying means for specifying the feature of the sentence from the analysis result by the analysis means;
Content extraction means for extracting continuous phrases that specify the content of the sentence using the analysis result by the analysis means;
A summary sentence creating means for creating a summary sentence of a sentence according to a field by using the feature of the sentence specified by the feature specifying means and a continuous phrase extracted by the content extracting means;
A program characterized by making it function.
JP2013115791A 2013-05-31 2013-05-31 Information processing device, control method, and computer program Pending JP2014235511A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013115791A JP2014235511A (en) 2013-05-31 2013-05-31 Information processing device, control method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013115791A JP2014235511A (en) 2013-05-31 2013-05-31 Information processing device, control method, and computer program

Publications (1)

Publication Number Publication Date
JP2014235511A true JP2014235511A (en) 2014-12-15

Family

ID=52138191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013115791A Pending JP2014235511A (en) 2013-05-31 2013-05-31 Information processing device, control method, and computer program

Country Status (1)

Country Link
JP (1) JP2014235511A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020057195A (en) * 2018-10-02 2020-04-09 テクマトリックス株式会社 Summary creating server, summary creating system and summary creating method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020057195A (en) * 2018-10-02 2020-04-09 テクマトリックス株式会社 Summary creating server, summary creating system and summary creating method

Similar Documents

Publication Publication Date Title
JP6563465B2 (en) System and method for identifying and proposing emoticons
Yang et al. Text mining of Twitter data using a latent Dirichlet allocation topic model and sentiment analysis
US10552539B2 (en) Dynamic highlighting of text in electronic documents
US10503836B2 (en) Method for generating natural language communication
US9348808B2 (en) Content-based automatic input protocol selection
Cotterell et al. An algerian arabic-french code-switched corpus
US10496756B2 (en) Sentence creation system
JP5340584B2 (en) Device and method for supporting reading of electronic message
US9817821B2 (en) Translation and dictionary selection by context
US10078634B2 (en) Visualizing and exploring natural-language text
US11227119B2 (en) Cognitive word processing
US20190303437A1 (en) Status reporting with natural language processing risk assessment
Dehkharghani et al. Automatically identifying a software product's quality attributes through sentiment analysis of tweets
Teich et al. Scientific registers and disciplinary diversification: a comparable corpus approach
JP5979650B2 (en) Method for dividing terms with appropriate granularity, computer for dividing terms with appropriate granularity, and computer program thereof
JP5722375B2 (en) End-of-sentence expression conversion apparatus, method, and program
WO2011004524A1 (en) Text mining device
Aleman et al. Two Methodologies Applied to the Author Profiling Task.
JP2014235511A (en) Information processing device, control method, and computer program
JP2019053262A (en) Learning system
WO2010103916A1 (en) Device for presentation of characteristic words in document and program giving priority of characteristic words
JP5289261B2 (en) Text conversion device, method and program
JP2010191851A (en) Article feature word extraction device, article feature word extraction method and program
Saias Senti. ue: Tweet overall sentiment classification approach for SemEval-2014 task 9
CN112445959A (en) Retrieval method, retrieval device, computer-readable medium and electronic device

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150410