JP2020166501A - Segmentation model generation system, text segmentation device and segmentation model generation method - Google Patents
Segmentation model generation system, text segmentation device and segmentation model generation method Download PDFInfo
- Publication number
- JP2020166501A JP2020166501A JP2019065706A JP2019065706A JP2020166501A JP 2020166501 A JP2020166501 A JP 2020166501A JP 2019065706 A JP2019065706 A JP 2019065706A JP 2019065706 A JP2019065706 A JP 2019065706A JP 2020166501 A JP2020166501 A JP 2020166501A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- unit
- division
- data
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、分割モデル生成システム、テキスト分割装置および分割モデル生成方法に関するものである。 The present invention relates to a split model generation system, a text segmentation device, and a split model generation method.
従来、所定の文を他の文に変換することによって、ユーザが容易に理解可能な文を生成する文章変換装置が知られている。例えば、機械翻訳装置は、コンピュータを使用して所定の自然言語を他の自然言語に自動的に翻訳する。係り受け構造が複雑となるにつれて誤訳等が生じやすくなるため、文が長くなるにつれて変換精度が低くなる。そこで、文章変換装置では、変換元の文を分割することで文を短くし、変換精度を高めることが求められる。 Conventionally, there is known a sentence conversion device that generates a sentence that can be easily understood by a user by converting a predetermined sentence into another sentence. For example, a machine translation device uses a computer to automatically translate a given natural language into another natural language. As the dependency structure becomes more complicated, mistranslations and the like are more likely to occur, so that the conversion accuracy decreases as the sentence becomes longer. Therefore, in the sentence conversion device, it is required to shorten the sentence and improve the conversion accuracy by dividing the sentence of the conversion source.
特許文献1の技術では、所定の目的関数を最適化するように文の分割位置を決定する。この場合において、機械翻訳システムは、所定の尤度算出式にしたがって、分割文候補それぞれの尤度を算出する。機械翻訳システムは、分割文候補と所定の言語の間の類似度とを、所定の類似度算出式によって算出する。機械翻訳システムは、文の尤度と類似度によって定義されるスコアが最も高い分割文候補を選択して入力文を分割する。これにより、高い信頼性で長い文の分割位置を定めることが可能である。
In the technique of
特許文献2の技術では、テキストに含まれる句読点などの区切り文字と、テキストのフォーマットとから分割位置を検出する。この場合において、テキスト分割装置は、区切り文字のみでは表わせないような文の区切りを正しく検出してテキストを1文ずつに切出すことができる。 In the technique of Patent Document 2, the division position is detected from the delimiter such as punctuation marks included in the text and the text format. In this case, the text segmentation device can correctly detect sentence breaks that cannot be represented only by the delimiter and cut out the text one sentence at a time.
特許文献1では、文の尤度と類似度とによって定義されるスコアに基づいて入力文を分割する。しかしながら、機械翻訳システムは、分割位置の前にある単語を用いて、分割された文を生成する。機械翻訳システムは、分割位置の後ろにある単語を用いて、分割された文を生成する。分割元の文が入れ子構造を持つ場合には、分割しても意味が通らない文が生成される。
In
特許文献2では、テキストに含まれる区切り文字とテキストのフォーマットとから分割位置を検出する。しかしながら、文の係り受け関係を使用して分割位置を検出することには言及されていない。 In Patent Document 2, the division position is detected from the delimiter included in the text and the format of the text. However, there is no mention of using sentence dependency to detect split positions.
そこで、本発明は、上記の課題を解決する為になされたものであり、文を分割する分割モデルを生成可能な分割モデル生成システムおよび分割モデル生成方法と、分割モデル生成システムを用いて意味の明確な文を生成可能なテキスト分割装置と、を提供する。 Therefore, the present invention has been made to solve the above-mentioned problems, and is meaningful by using a division model generation system and a division model generation method capable of generating a division model for dividing a sentence, and a division model generation system. Provided is a text segmentation device capable of generating a clear sentence.
分割モデル生成システムは、複数の第1文を含んで構造化された第1の文書データと、複数の第2文を含んで構造化された第2の文書データと、が入力される入力部と、複数の第1文と複数の第2文とのうち、所定の対応関係にある第1文と第2文との組み合わせを学習データとして生成する学習データ生成部と、生成された学習データを記憶する学習データ記憶部と、学習データ記憶部に記憶された学習データに基づいて学習し、文を分割する分割モデルを生成する分割モデル生成部と、を有する。 The split model generation system is an input unit in which a first document data structured including a plurality of first sentences and a second document data structured including a plurality of second sentences are input. A learning data generation unit that generates training data by combining a combination of the first sentence and the second sentence having a predetermined correspondence relationship among the plurality of first sentences and the plurality of second sentences, and the generated learning data. It has a learning data storage unit that stores data, and a division model generation unit that learns based on the learning data stored in the learning data storage unit and generates a division model that divides a sentence.
本発明によると、意味の明確な文を生成することができる。 According to the present invention, it is possible to generate a sentence having a clear meaning.
本実施形態は、文章の変換を正確に行うための前処理に適用可能な分割モデル生成システムと、所定の文章を他の文章に変換するテキスト分割装置と、に関するものである。 The present embodiment relates to a division model generation system applicable to preprocessing for accurately converting sentences, and a text segmentation device that converts a predetermined sentence into another sentence.
以下、本発明の一実施形態を図1に基づいて説明するが、本発明は、図1に記載の実施形態に限定されるものではない。本実施形態は、例えば特許文献、科学技術文献のように構造化された文書に好適に用いることができる。本実施形態は、特許文献または科学技術文献以外の構造化された文書にも適用することができる。 Hereinafter, one embodiment of the present invention will be described with reference to FIG. 1, but the present invention is not limited to the embodiment shown in FIG. This embodiment can be suitably used for structured documents such as patent documents and science and technology documents. The present embodiment can also be applied to structured documents other than patent documents or scientific and technological documents.
図1は、テキスト分割装置1の概略図である。テキスト分割装置1は、例えば分割モデル生成システム10と、編集部20と、変換処理部30と、変換評価処理部40と、言語サーバ50と、を有する。
FIG. 1 is a schematic view of a
なお、図中では、「部」を省略して示す場合がある。例えば、編集部20は、図中では、「編集」と略記する場合がある。
In the figure, the "part" may be omitted. For example, the
分割モデル生成システム10は、文を分割する分割モデル144を生成する機能である。分割モデル生成システム10は、例えば入力部11と、学習データ生成部12と、学習データ記憶部13と、分割モデル生成部14と、を有する。
The division
入力部11は、例えば、対応する二つのコーパスを受け付ける機能である。対応する二つのコーパスにおいて、一方のコーパスは、他方のコーパスの文を意味ごとに整理し、変換された複数の文によって構成される。変換元のコーパスは、「第1の文書データ」の例であり、第1文を複数含む。変換後のコーパスは、「第2の文書データ」の例であり、第1文が変換された第2文を複数含む。
The
第1文と第2文とは、ひとかたまりの意味表現を複数含む。ひとかたまりの意味表現とは、二語以上の単語の集まりで一つの意味が表現されるものである。例えば、「ネットワーク上で公開される図書館は、デジタルライブラリと呼ばれ、資料がアップロードされることによってコンテンツが充実する。」という文は、「ネットワーク上で公開される図書館は、デジタルライブラリと呼ばれる。」という意味表現と「デジタルライブラリは、資料がアップロードされることによってコンテンツが充実する。」という意味表現を含む。ひとかたまりの意味表現は、文中の「句」または文中の「節」によって示される。以下、ひとかたまりの意味表現は、意味表現と略記する場合がある。 The first sentence and the second sentence include a plurality of semantic expressions of a group. A group of semantic expressions is a group of two or more words that express one meaning. For example, the sentence "a library published on a network is called a digital library, and the content is enriched by uploading materials" is called "a library published on a network is called a digital library." Includes the meaning expression "The content of the digital library is enriched by uploading the material." A group of semantic expressions is indicated by a "phrase" in a sentence or a "clause" in a sentence. Hereinafter, a group of semantic expressions may be abbreviated as semantic expressions.
学習データ生成部12は、入力された各コーパスの中から、学習に用いる学習用データを抽出する機能である。学習用データとは、所定の対応関係にある第1文のデータおよび第2文のデータである。学習データ記憶部13は、抽出された学習用データを記憶するデータベースである。分割モデル生成部14は、学習用データに基づいて学習し、分割モデル144を生成する機能である。
The learning
分割モデル生成部14は、例えば、第1ターゲットデータ変換部141と、第1ソースデータ変換部142と、集約部143と、学習データ分割部144と、第2ターゲット言語変換部145と、第2ソース言語変換部146と、を有する。
The division
第1ターゲットデータ変換部141は、第2文のデータを一つまたは複数の意味表現データに変換する機能である。第1ソースデータ変換部142は、第1文のデータを一つまたは複数の意味表現データに変換する機能である。集約部143は、第1ターゲットデータ変換部141にて変換された意味表現データを、重文または複文等として示す一つの意味表現データに変換する機能である。
The first target
「分割モデル144」の例である学習データ分割部144は、第1文の一つまたは複数の意味表現データと、第2文の一つの意味表現データと、をそれぞれ複数の意味表現データに分割する機能である。第2ターゲット言語変換部145は、学習データ分割部144にて分割された第2文の意味表現データを、文書形式のデータに変換する機能である。第2ソース言語変換部146は、学習データ分割部144にて分割された第1文の意味表現データを、文書形式のデータに変換する機能である。
The learning
編集部20は、分割モデル144に基づいて、所定の文を複数の文に分割する機能である。変換処理部30は、分割された所定の文を他の文にそれぞれ変換する機能である。変換評価処理部40は、変換処理部30の変換精度を評価する機能である。言語サーバ50は、単語データが保存されるデータベースである。
The
本実施形態に示す分割モデル生成システム10は、入力部11と、学習データ生成部12と、学習データ記憶部13と、分割モデル生成部14と、を有することによって、意味表現ごとに文を分割する分割モデル144を生成することができる。これにより、分割モデル生成システム10は、所定の文を正確に変換する為の前処理として採用することができる。
The division
テキスト分割装置1は、例えば分割モデル生成システム10と、編集部20と、変換処理部30と、変換評価処理部40と、言語サーバ50と、を有することによって、分割モデル144を用いて所定の文を変換することができる。これにより、テキスト分割装置1は、意味が明確な文を生成することができる。
The
図1に示すテキスト分割装置1の実施例を、各図面を参照しながら説明する。
An embodiment of the
図2は、テキスト分割装置1の機能構成を示す概略図である。テキスト分割装置1は、入力された所定の文を意味ごとに分割し、分割された文ごとに他の文へ変換する。テキスト分割装置1は、例えば分割モデル生成システム10と、編集部20と、変換処理部30と、変換評価処理部40と、言語サーバ50と、を有する。
FIG. 2 is a schematic diagram showing a functional configuration of the
分割モデル生成システム10は、文を分割する分割モデル144を生成する機能である。分割モデル生成システム10は、例えば入力部11と、学習データ生成部12と、学習データ記憶部13と、分割モデル生成部14と、を有する。
The division
入力部11は、対応する二つのコーパスを受け付ける機能である。対応する二つのコーパスには、ソース言語コーパスと、ソース言語コーパスの文を意味ごとに整理して変換したターゲット言語コーパスと、が含まれる。
The
ソース言語コーパスは、第1の文書データ71(図6参照)を含む。ターゲット言語コーパスは、第2の文書データ72を含む。第1の文書データ71は、複数の第1文を含んで構造化される。第2の文書データ72は、複数の第2文を含んで構造化される。入力部11は、第1の文書データ71と第2の文書データ72とを学習データ生成部12へ送信する。入力部11は、図5にて後述する。
The source language corpus includes the first document data 71 (see FIG. 6). The target language corpus includes the
第1文と第2文は、複数の意味表現が含まれる一文または、複数の単文のいずれか一方である。複数の意味表現が含まれる一文とは、例えば、複文または重文等である。以下、複数の意味表現が含まれる一文は、「複数意味文」と略記する場合がある。単文は、一つの意味表現で構成される文である。 The first sentence and the second sentence are either one sentence containing a plurality of semantic expressions or a plurality of simple sentences. A sentence containing a plurality of semantic expressions is, for example, a compound sentence or a compound sentence. Hereinafter, a sentence containing a plurality of semantic expressions may be abbreviated as "multiple semantic sentences". A simple sentence is a sentence composed of one semantic expression.
学習データ生成部12は、複数の第1文と複数の第2文とのうち、所定の対応関係にある第1文と第2文との組み合わせを学習データとして生成する機能である。学習データ生成部12は、学習データ記憶部13へ学習用データを送信する。学習データ生成部12は、図6にて後述する。
The learning
所定の対応関係は、第1文と前記第2文との組み合わせが、一対多の関係、多対一の関係または、多対多の関係の少なくともいずれかを含む。第1文と第2文とが関係を有するとは、第1文に含まれる意味表現と第2文に含まれる意味表現とが同じ意味を示す場合である。一対多の関係とは、第1文が一つの複数意味文であり、第2文が複数の単文である関係である。多対1の関係とは、第1文が複数の単文であり、第2文が一つの複数意味文である関係である。多対多の関係とは、第1文と第2文とがそれぞれ複数の単文である関係である。 In the predetermined correspondence relationship, the combination of the first sentence and the second sentence includes at least one of a one-to-many relationship, a many-to-one relationship, and a many-to-many relationship. The relationship between the first sentence and the second sentence is a case where the semantic expression included in the first sentence and the semantic expression included in the second sentence have the same meaning. The one-to-many relationship is a relationship in which the first sentence is one plural meaning sentence and the second sentence is a plurality of simple sentences. The many-to-one relationship is a relationship in which the first sentence is a plurality of simple sentences and the second sentence is a single plural meaning sentence. The many-to-many relationship is a relationship in which the first sentence and the second sentence are each a plurality of simple sentences.
学習データ記憶部13は、学習データを記録するデータベースである。学習データ記憶部13は、分割モデル生成部14に学習データを供給する。
The learning
分割モデル生成部14は、学習データに基づいて学習し、分割モデル144を生成する機能である。分割モデル生成部14は、第1文と第2文とを意味表現ごとに分割し、分割された第1文と分割された第2文とに基づいて分割モデル144を生成する。分割モデル生成部14は、後述する分割モデル記憶部23へ分割モデルを送信する。分割モデル生成部14は、図7にて後述する。分割モデル144の一つの例は、図1で述べた学習データ分割部144である。したがって、分割モデル144に符号144を与えることもできる。
The division
編集部20は、分割モデル生成システム10が生成した分割モデル144に基づいて、所定の文を意味表現ごとに分割する機能である。編集部20は、例えば入力部21と、分割対象選択部22と、分割モデル記憶部23と、分割部24と、分割評価部25と、評価提示部26と、分割結果抽出部27と、変換データ記憶部28と、を有する。
The
入力部21は、所定の文書データ331(図11参照)を受け付ける機能である。所定の文書データ331は、複数の文を含んで構造化されたデータである。入力部21は、分割対象選択部22へデータを出力する。
The
分割対象選択部22は、所定の文書データ331の中から分割対象の文を選択する機能である。分割対象選択部22は、分割部24に分割対象の文のデータを送信する。なお、分割対象選択部22は、ユーザによって操作され、所定の文書データ331の中から分割処理の対象となる文の集合を抽出してもよい。
The division
分割モデル記憶部23は、分割モデル144を記憶するデータベースである。分割モデル記憶部23は、分割部24に分割モデル144を送信する。分割部24は、分割モデル144に基づいて、一つの分割対象の文を複数の文に分割する機能である。分割部24は、分割評価部25に分割した文のデータを送信する。
The division
分割評価部25は、所定の評価指標に基づいて、分割部24の分割結果を評価する機能である。所定の評価指標は、例えば、分割結果の文の流暢さ等である。分割評価部25は、評価提示部26に評価結果を送信する。
The
評価提示部26は、評価値をユーザに提示する機能と、ユーザが設定した閾値を受け付ける機能とを有する。ユーザは、評価提示部26によって提示された評価値に基づいて閾値を設定することによって、分割結果から変換処理に適する文を選択する。評価提示部26は、分割結果抽出部27に評価値と閾値とを送信する。評価提示部26は、図10にて後述する。
The
分割結果抽出部27は、分割評価部25の評価に基づいて、分割部24にて分割された複数の文の中から、変換処理部30にて変換する文を抽出する機能である。分割結果抽出部27は、変換データ記憶部28に変換する文のデータを送信する。変換データ記憶部28は、変換する文のデータを保存するデータベースである。変換データ記憶部28は、変換部31に変換する文のデータを送信する。
The division
変換処理部30は、分割された複数の文を他の文に変換する機能である。変換処理部30は、例えば変換部31と、変換ソフト記憶部32と、出力部33と、を有する。
The
変換部31は、変換データ記憶部28に記憶されているテキストデータに対して、変換処理を行う機能である。変換部31は、変換ソフト記憶部32からの変換ソフトと、変換データ記憶部28から取得したテキストデータとを用いて文の変換をし、その結果を出力部33へ出力する。変換ソフト記憶部32は、変換部31にて使用する変換ソフトを記憶するデータベースである。変換ソフト記憶部32は、変換部31に変換ソフトのデータを送信する。出力部33は、変換結果を出力する機能である。出力部33は、図11にて後述する。
The
変換評価処理部40は、変換処理部30の変換精度を評価する機能である。変換評価処理部40は、例えば変換評価部41と、出力部42と、を有する。
The conversion
変換評価部41は、変換部31の変換精度を評価する機能である。変換評価部41は、出力部42に変換評価の結果を送信する。出力部42は、変換精度の評価値を出力する機能である。出力部42は、図11にて後述する。
The
言語サーバ50は、分割部24および変換部31が使用する単語データを記憶するデータベースである。言語サーバ50は、分割部24と、変換部31とに単語データを送信する。
The
図3は、テキスト分割装置のハードウェア構成図である。テキスト分割装置1は、例えば入出力装置61と、記憶部62と、CPU(Central Processing Unit)63と、メモリ64と、通信インターフェース(図中、通信I/F(InterFace)と示す場合がある)65と、入出力回路66と、各機能61〜66を双方向に通信可能に接続するデータ伝送路67と、を有する。
FIG. 3 is a hardware configuration diagram of the text segmentation device. The
入出力装置61は、入力装置と出力装置(いずれも図示せず)とを有する。入力装置は、例えば、キーボード、マウス等のポインティングデバイスマイク等の音声入力装置である。出力装置は、例えば、ディスプレイ、プリンタ、音声合成装置等である。さらに、入力装置と出力装置とをタブレットまたはAR(Augmented Reality)ディスプレイのように一体化させてもよい。入出力装置61は、テキスト分割装置1が設けられる計算機とは別の計算機に設けることもできる。例えば、パーソナルコンピュータ、携帯電話(いわゆるスマートフォンを含む)、携帯情報端末等をテキスト分割装置1への入出力装置61として用いてもよい。
The input /
記憶部62は、例えば、ハードディスクまたはSSD(Solid State Drive)等の不揮発性記憶装置である。記憶媒体の種類は問わない。記憶部62は、分割モデル生成システム10と、編集部20と、変換処理部30と、変換評価処理部40と、をそれぞれ実現するためのコンピュータプログラム(以下、プログラム)を記憶する。記憶部62は、言語サーバ50といった、データベースも記憶する。
The
CPU63は、メモリ64を介して記憶部62から各プログラムを読み込んで実行する。メモリ64は、例えば、「RAM(Random Access Memory)」等の揮発性記憶装置である。
The
通信インターフェース65は、例えば、LAN(Local Area Network)、インターネットなどの通信ネットワークを介して外部装置と通信する装置である。
The
入出力回路66は、例えばUSB(Universal Serial Bus)メモリ、光ディスク等の記憶媒体68が接続される端子である。入出力回路66は、例えば、USBポート、コネクタ等である。
The input /
記憶媒体68は、持ち運び可能な記憶媒体である。なお、記憶媒体68には、分割モデル生成システム10を実現するプログラムが記憶されてもよい。ユーザは、記憶媒体68に保存される分割モデル生成システム10のプログラムをコンピュータにインストールすることによって、分割モデル生成システム10をコンピュータ上に設けてもよい。。
The
なお、分割モデル生成システム10を実現するプログラムは、クラウド上の所定のサーバに保存されてもよい。この場合において、ユーザは、通信インターフェース65を介して分割モデル生成システム10のプログラムをクラウド上からコンピュータにインストールすることによって、分割モデル生成システム10をコンピュータ上に実現してもよい。
The program that realizes the split
以下、第1の文書データ71が日本語で記載された特許明細書であり、第2の文書データ72が英語で記載された特許明細書であることを一例にあげて分割モデル生成システム10の処理を説明する。なお、第1の文書データ71および第2の文書データ72は、特許明細書に限らず、研究論文等の構造化された文書であってもよい。
Hereinafter, the division
図4は、分割モデル生成システム10の処理の流れ図である。分割モデル生成システム10は、入力部11の処理(S11)と、学習データ生成部12の処理(S12,S13)と、分割モデル生成部14の処理(S14,S15)と、で実行される。
FIG. 4 is a processing flow chart of the split
分割モデル生成システム10は、例えば、ユーザの操作によって開始される。分割モデル生成システム10の処理は、入力部11の処理(S11)に移動する。入力部11は、入出力装置61に、ソース言語コーパスと、ターゲット言語コーパスとの入力欄を表示させる。
The split
図5は、入力部11の説明図である。入力部11は、例えば、ソース言語ファイル入力欄111と、ターゲット言語ファイル入力欄112と、実行ボタン113と、キャンセルボタン114と、を入出力装置61に表示させる。
FIG. 5 is an explanatory diagram of the
ソース言語ファイル入力欄111は、ソース言語ファイルとしてのソース言語コーパスを受け付ける機能である。ターゲット言語ファイル入力欄112は、ターゲット言語ファイルとしてのターゲット言語コーパスを受け付ける機能である。実行ボタン113は、分割モデル生成処理(S12〜S15)を実行させるボタンである。キャンセルボタン114は、入力部11の表示を取り消すボタンである。
The source language
ユーザは、ソース言語ファイル入力欄111にソース言語コーパスのファイルのディレクトリを入力してもよい。ユーザは、ターゲット言語ファイル入力欄112にターゲット言語コーパスのファイルのディレクトリを入力してもよい。または、欄111,112にプルダウンメニューを設けて、プルダウンメニューの中からファイルを指定してもよい。さらには、欄111,112にファイルのアイコンをドロップすることにより、ファイルを入力してもよい。
The user may enter the directory of the source language corpus file in the source language
図4に戻り、学習データ生成部12は、入力部11からソース言語コーパスのデータとターゲット言語コーパスのデータとを受け取る。学習データ生成部12は、第1の文書データ71と第2の文書データ72との中から、学習用データを抽出する(S12)。
Returning to FIG. 4, the learning
図6は、学習データ生成部12の説明図である。第1の文書データ71と、第2の文書データ72とは、所定の順序で並べられた複数の項目を有する。
FIG. 6 is an explanatory diagram of the learning
第1の文書データ71は、日本語で示される複数の項目c1〜c7を有する。項目c1は、例えば「書類名」を示す。項目c2は、例えば「発明の名称」を示す。項目c3は、例えば「技術分野」を示す。項目c4は、例えば「背景技術」を示す。項目c5は、例えば「先行技術文献」を示す。項目c6は、例えば「発明の概要」を示す。項目c7は、例えば「発明が解決しようとする課題」を示す。
The
第2の文書データ72は、英語で示される複数の項目c8〜c14を有する。項目c8は、例えば「DESCRIPTION」を示す。項目c9は、例えば「Title of Invention」を示す。例えば項目c10は、「Technical Field」を示す。項目c11は、例えば「Background Art」を示す。項目c12は、例えば「Citation List」を示す。項目c13は、例えば「Summary of Invention」を示す。項目c14は、例えば「Technical Problem」を示す。
The
項目c1は、項目c8と対応する。項目c2は、項目c9と対応する。項目c3は、項目c10と対応する。項目c4は、項目c11と対応する。項目c5は、項目c12と対応する。項目c6は、項目c13と対応する。項目c7は、項目c14と対応する。 Item c1 corresponds to item c8. Item c2 corresponds to item c9. Item c3 corresponds to item c10. Item c4 corresponds to item c11. Item c5 corresponds to item c12. Item c6 corresponds to item c13. Item c7 corresponds to item c14.
学習データ生成部12は、第1の文書データ71の各項目c1〜c7と第2の文書データ72の各項目c8〜c14とのうち対応する項目間において、第1文と第2文とを抽出する。例えば、学習データ生成部12は、第1の文書データ71の項目c4を選択したとする。この場合、学習データ生成部12は、項目c4に示される複数の文の中から、第1文としての「JP:Sen(Sentence)」を抽出する。ここで「JP:Sen」は、例えば、複数の(例えば三つの)意味表現を含んだ、複数意味文である。なお、学習用データとしての第1文は、三つの意味表現を含む複数意味文に限らず、二つまたは四つ以上の意味表現を含む複数意味文であってもよい。
The learning
「JP:Sen」の例としては、「タイヤは、融点が160℃以上であるポリプロピレンを含み、前記融点が160℃以上であるポリプロピレンの含有率が樹脂組成物全体の60質量%以下である樹脂組成物を含む。」という文がある。したがって、「JP:Sen」には、「樹脂組成物を含むタイヤ」という第1の意味表現と、「樹脂組成物は、融点が160℃以上であるポリプロピレンを含む」という第2の意味表現と、「樹脂組成物含まれる融点が160℃以上であるポリプロピレンの含有率は、樹脂組成物全体の60質量%以下である」という第3の意味表現と、の三つの意味表現が含まれる。 As an example of "JP: Sen", "a tire contains polypropylene having a melting point of 160 ° C. or higher, and the content of polypropylene having a melting point of 160 ° C. or higher is 60% by mass or less of the entire resin composition. Including the composition. " Therefore, "JP: Sen" includes a first semantic expression of "a tire containing a resin composition" and a second semantic expression of "the resin composition contains polypropylene having a melting point of 160 ° C. or higher". , "The content of polypropylene contained in the resin composition having a melting point of 160 ° C. or higher is 60% by mass or less of the entire resin composition", and three semantic expressions are included.
学習データ生成部12は、第2の文書データ72の項目c11に示される複数の文の中から、第2文としての、「EN:Seg1」、「EN:Seg2」および「EN:Seg3」を抽出する。「EN:Seg1」、「EN:Seg2」および「EN:Seg3」は、英語で記載される単文である。
The learning
「EN:Seg1」は、例えば、「A tire which comprises a resin composition.」という文である。「EN:Seg2」は、例えば、「The resin composition contains a polypropylene having a melting point of 160°C or more.」という文である。「EN:Seg3」は、例えば、「The content of the polypropylene having a melting point of 160°C or more is 60% by mass or less of the whole mass of the resin composition.」という文である。 "EN: Seg1" is, for example, the sentence "A tire which compactions a resin composition." "EN: Seg2" is, for example, the sentence "The resin composition contours a polypropylene having having a melting point of 160 ° C or more." "EN: Seg3" is, for example, "The content of the polypropylene having a melting point of 160 ° C or more is 60% by mass or less of the statement".
「JP:Sen」と、「EN:Seg1」、「EN:Seg2」および「EN:Seg3」とは、一対多の関係を有する。すなわち、「JP:Sen」は、「EN:Seg1」、「EN:Seg2」および「EN:Seg3」の三つの文の意味表現を有する。 "JP: Sen" and "EN: Seg1", "EN: Seg2" and "EN: Seg3" have a one-to-many relationship. That is, "JP: Sen" has the semantic expressions of the three sentences "EN: Seg1", "EN: Seg2" and "EN: Seg3".
なお、学習データ生成部12は、第1文と第2文との所定の対応関係を有する組み合わせの中から、単語数または翻訳精度の少なくともいずれか一方に基づいて、学習用データを抽出してもよい。学習データ生成部12は、単語数または翻訳精度の少なくともいずれか一方に限らず、他の基準に基づいて、学習用データを抽出してもよい。
The learning
学習データ生成部12は、例えば、単語数が10単語以上の第1文と、単語数が80単語以下の第2文と、の組み合わせを抽出してもよい。なお、学習データ生成部12は、単語数が10単語以上の第1文と、単語数が80単語以下の第2文と、の組み合わせに限らず、他の単語数に基づいて学習用データを抽出してもよい。
The learning
学習データ生成部12は、例えば、第1文と第2文とのアライメント精度が「0.1」以上を満たす、第1文と第2文との組み合わせを抽出する。第1文と第2文とのアライメント精度は、BLEU(BiLingual Evaluation Understudy)およびRIBES(Rankbased Intuitive Bilingual Score)等の指標を用いて計算されてもよい。学習データ生成部12は、アライメント精度が「0.1」以上に限らず、他の値に基づいて学習用データを抽出してもよい。
The learning
図4に戻り、学習データ生成部12は、学習データ記憶部13に学習用データを記録する(S13)。学習データ生成部12は、例えば、「JP:Sen」のデータと、「EN:Seg1」,「EN:Seg2」および「EN:Seg3」のデータと、を学習データ記憶部13に記録する。
Returning to FIG. 4, the learning
分割モデル生成部14は、学習データ記憶部13から学習用データを取得し、分割モデル144を学習する(S14)。図7は、分割モデル生成部14の説明図である。分割モデル生成部14は、例えば、エンコーダ141,142と、集約部143と、学習データ分割部144と、デコーダ145,146と、を有する。
The division
エンコーダ141は、図1に示す第1ターゲットデータ変換部141に対応する。エンコーダ142は、図1に示す第1ソースデータ変換部142に対応する。デコーダ145は、図1に示す第2ターゲット言語変換部145に対応する。デコーダ146は、図1に示す第2ソース言語変換部146に対応する。
The
エンコーダ141は、第2文のデータを、意味表現データに変換する機能である。意味表現データは、文の意味表現を示すデータである。意味表現データは、例えば、n次元のベクトルである。nは、所定の定数である。エンコーダ141は、例えば、「EN:Seg1」のデータ,「EN:Seg2」のデータおよび「EN:Seg3」のデータを、「EN:h1」、「EN:h2」および「EN:h3」にそれぞれ変換する。「EN:h1」、「EN:h2」および「EN:h3」は、それぞれ一つの意味表現を有する意味表現データである。
The
エンコーダ142は、第1文のデータを、意味表現データに変換する機能である。エンコーダ142は、例えば、「JP:Sen」のデータを、「JP:h」に変換する。「JP:h」は、三つの意味表現を含む意味表現データである。
The
集約部143は、複数の意味表現データを集約することによって、複数意味文としての意味表現データを算出する機能である。集約部143は、例えば、第2文の複数の意味表現データを集約する。
The
集約部143は、例えば、「EN:h1」、「EN:h2」および「EN:h3」のデータをエンコーダ141から取得する。集約部143は、「EN:h1」、「EN:h2」および「EN:h3」のデータを集約し、「EN:h」を取得する。「EN:h」は、第2文を複数意味文として示した場合の意味表現データである。
The
集約部143は、複数の意味表現データを足し合わせる方法または、複数の意味表現データ間に時系列な依存関係を設定する方法等によって、複数の意味表現データを集約してもよい。なお、集約部143は、複数の意味表現データを足し合わせる方法および複数の意味表現データ間に時系列な依存関係を設定する方法に限らず、他の方法によって複数の意味表現データを集約してもよい。
The
学習データ分割部144は、学習機能を用いて、一つの意味表現データを複数の意味表現データに分割する機能である。学習データ分割部144は、例えば、「JP:h」と「EN:h」とを分割する。
The learning
学習データ分割部144は、例えば、エンコーダ142から「JP:h」を取得する。学習データ分割部144は、例えば、学習した分割方法を用いて「JP:h」を分割することによって、「JP:hs1」と、「JP:hs2」と、「JP:hs3」と、を算出する。「JP:hs1」と、「JP:hs2」と、「JP:hs3」とは、第1文のそれぞれ一つの意味表現を示す意味表現データである。
The learning
学習データ分割部144は、例えば、集約部143から「EN:h」を取得する。学習データ分割部144は、例えば、「EN:h」を分割することによって、「EN:hs1」と、「EN:hs2」と、「EN:hs3」と、を算出する。「EN:hs1」と、「EN:hs2」と、「EN:hs3」とは、第2文のそれぞれ一つの意味表現を示す意味表現データである。
The learning
学習データ分割部144は、例えば、集約後の意味表現データから集約前の複数の意味表現データを復元するように分割方法を学習する。学習データ分割部144は、例えば、「EN:h1」から「EN:h1」、「EN:h2」および「EN:h3」を復元するように分割方法を学習する。
The learning
デコーダ145は、分割された第2文の意味を示すデータを文書形式に変換する機能である。デコーダ145は、例えば、「EN:hs1」、「EN:hs2」および「EN:hs3」を、英語で記載される「EN:Seg1」、「EN:Seg2」および「EN:Seg3」にそれぞれ変換する。「EN:Seg1」は、「EN:hs1」の意味を示すデータを、文書形式に変換したデータである。「EN:Seg2」は、「EN:hs2」の意味を示すデータを、文書形式に変換したデータである。「EN:Seg3」は、「EN:hs3」の意味を示すデータを、文書形式に変換したデータである。
The
デコーダ146は、分割された第1文の意味を示すデータを文書形式に変換する機能である。デコーダ146は、例えば、「JP:hs1」、「JP:hs2」および「JP:hs3」を、日本語で記載される「JP:Seg1」、「JP:Seg2」および「JP:Seg3」にそれぞれ変換する。「JP:Seg1」は、「JP:hs1」の意味を示すデータを、文書形式に変換したデータである。「JP:Seg2」は、「JP:hs2」の意味を示すデータを、文書形式に変換したデータである。「JP:Seg3」は、「JP:hs3」の意味を示すデータを、文書形式に変換したデータである。
The
なお、分割モデル生成部14は、分割された第1文の意味表現データと、分割された第2文の意味表現データとの差分を最小化する手段を備える。最小化する手段は、例えば、差分の二乗を求めるなどが考えられるが、これに限定されない。
The divided
エンコーダ141,142と、学習データ分割部144と、デコーダ145,146とは、例えば、LSTM(Long Short−Term Memory)またはGRU(Gated Recurrent Unit)等のニューラルネットワークでもよい。
The
図8は、学習データ分割部144の説明図である。学習データ分割部144は、例えば、学習用データと分割済みの意味表現データとに基づいて、次に分割する意味表現データを算出する。
FIG. 8 is an explanatory diagram of the learning
学習データ分割部144は、例えば、第1文のデータまたは第2文のデータのいずれか一方と、所定の値と、に基づいて一つの所定の意味表現データを抽出する。所定の値は、既に分割された意味表現データまたは、既に分割された文の「Attention score」を足し合わせたベクトル等を用いてもよい。分割された意味表現データがない場合には、所定の値には、所定の初期値を入力してもよい。
The learning
既に分割された意味表現データとは、一つ前に分割した意味表現データである。既に分割された文の「Attention score」を足し合わせたベクトルとは、一つ前に学習データ分割部144が分割した意味表現データをもとに、デコーダ146の出力である文書形式のデータに含まれる単語を出力する際に用いられた「Attention score」を足し合わせたベクトルである。「Attention score」は、生成する単語が入力文のどこに注目するのかを示した値である。
The already divided semantic expression data is the previously divided semantic expression data. The vector to which the "Attention score" of the already divided sentence is added is included in the document format data which is the output of the
なお、学習データ分割部144は、分割された複数の文の間で意味表現が重複することを抑制する手段を備えてもよい。学習データ分割部144は、例えば、一つ前に分割された文の「Attention score」を足し合わせたベクトルが含まれない所定の値を用いて、所定の意味表現データを抽出する手段を備えてもよい。学習データ分割部144は、例えば、分割前の意味表現データの中から既に分割された意味表現データを削除し、残りの意味表現データから一つの所定の意味表現データを抽出する手段を備えてもよい。
The learning
図4に戻り、分割モデル生成部14は、生成した分割モデル144を分割モデル記憶部23に保存する(S15)。なお、分割モデル生成部14は、生成した複数の分割モデル144の中で、分割精度が最も良い分割モデル144を分割モデル記憶部23に保存してもよい。分割モデル生成システム10は、処理(S15)の後に終了する。
Returning to FIG. 4, the division
図9は、編集部20の処理の流れ図である。編集部20は、入力部21の処理(S21)と、分割対象選択部22の処理(S22)と、分割部24の処理(S23)と、分割評価部25の処理(S24)と、評価提示部26の処理(S25)と、分割結果抽出部27の処理(S26〜S28)とによって実行される。編集部20は、ユーザの操作によって開始される。
FIG. 9 is a processing flow chart of the
編集部20の処理は、入力部21の処理(S21)に移動する。入力部21には、ユーザによって所定の文書データ331(図11参照)が入力される(S21)。入力部は、分割対象選択部22に、所定の文書データ331を送信する。
The process of the
分割対象選択部22は、所定の文書データ331の中から、分割処理の対象になる文を抽出する(S22)。分割対象選択部22は、例えば、一文の単語数に基づいて、所定の文書データ331の中から分割対象の文を抽出する。分割対象選択部22は、例えば、単語数が所定数以上の一文を分割対象の文として抽出する。分割対象選択部22は、単語数に限らず、他の基準に基づいて、分割対象の文を抽出してもよい。分割対象選択部22は、抽出した分割対象の文のデータを、分割部24に送信する。
The division
分割部24は、分割モデル記憶部23に保存される分割モデル144に基づいて、分割対象の文を、意味表現ごとに複数の文に分割する(S23)。分割部24は、言語サーバ50に保存される単語データを用いて、分割した文を生成する。分割部は、分割結果を分割評価部25に送信する。
The
分割評価部25は、分割結果に対して精度評価をする(S24)。分割評価部25は、例えば、分割前から分割後の文における意味表現の保持の度合いと、分割後の文の流暢さと、の観点から精度評価をする。
The
分割評価部25は、例えば、元の文の意味表現を表すベクトルと、分割後の文の意味表現を結合して得られたベクトルと、の間のcosine距離等を用いることによって、意味表現の保持について評価をする。分割評価部25は、例えば、分割後の言語に適する言語モデルを用いることによって、流暢さについて評価をする。分割評価部25は、評価提示部26に評価結果を送信する。
The
図10は、評価提示部26の説明図である。評価提示部26は、例えば、評価結果261と、閾値入力欄262と、実行ボタン263と、キャンセルボタン264と、を入出力装置61に表示させる。評価結果261は、分割評価部25の評価結果である。評価提示部26は、例えば、意味表現の保持を「0.9」と出力し、流暢さを「0.8」と出力する。
FIG. 10 is an explanatory diagram of the
閾値入力欄262は、所定の閾値を受け付ける機能である。所定の閾値は、分割結果抽出部27が分割結果から変換対象の文のデータを選択する際に使用する値である。ユーザは、分割結果の評価結果261に基づいて、所定の閾値を設定する(図9の処理(S24))。
The threshold
実行ボタン263は、分割結果抽出部27を開始するボタンである。キャンセルボタン264は、編集部20の処理を終了するボタンである。
The
図9に戻り、分割結果抽出部27は、所定の閾値と、各分割された文の評価値と、を比較する(S26)。所定の閾値よりも分割された文の評価値が高い場合(S26:Yes)には、分割後の文のデータを変換データ記憶部28に保存する(S27)。所定の閾値よりも分割された文の評価値が低い場合(S26:No)には、分割前の文のデータを変換データ記憶部28に保存する(S28)。分割結果抽出部27の処理(S27,28)の後に、編集部20の処理は、終了する。
Returning to FIG. 9, the division
図11は、出力部33,42の説明図である。出力部33は、所定の文書データ331および、変換結果332を入出力装置61に表示させる。変換結果332は、変換部31にて変換された文書である。
FIG. 11 is an explanatory diagram of the
変換部31は、変換データ記憶部28から文のデータを取得する。変換部31は、変換ソフト記憶部32に保存される変換ソフトを用いて、取得した文を変換する。変換部31は、言語サーバ50から単語データを取得することによって、変換後の文を生成する。変換部31は、変換前の文のデータと、変換後の文のデータと、を出力部33へ送信する。なお、文の変換には、技術文書を対象とした機械翻訳、音声データを介した対話、文の分かりやすさに注目した言い換え生成等が含まれる。
The
なお、変換部31は、言語サーバ50に記憶される単語データよりも所定の文書データ331に含まれる単語を優先して使用することで、変換後の文を生成してもよい。これにより、変換部31は、表記の揺れまたは記号の誤り等を抑制することができる。
The
出力部42は、変換精度の評価421を入出力装置61に表示させる。出力部42は、例えば、変換精度の評価421として、意味表現の保持を「0.9」と表示させる。出力部42は、例えば、変換精度の評価421として、流暢さを「0.8」と表示させる。
The
変換精度の評価421は、変換評価部41にて算出される。変換評価部41は、分割部24から分割後の文のデータを取得し、変換部31から変換結果332を取得する。変換評価部41は、例えば、分割後の文のデータと、変換結果332と、の意味表現の近さを算出することによって、意味表現の保持度を算出する。
The
なお、変換評価部41は、分割モデル記憶部23に保存される分割モデル144を用いることによって、変換結果を評価してもよい。変換評価部41は、例えば、分割モデル144を用いて、分割後の文のデータと、変換後の文とを意味表現データに変換する。変換評価部41は、各意味表現データを比較して、分割後の文のデータと変換結果との意味表現の近さを算出する。
The
本実施例に示す分割モデル生成システム10は、入力部11と、学習データ生成部12と、学習データ記憶部13と、分割モデル生成部14と、を有することによって、文を意味表現ごとに分割する分割モデル144を生成することができる。これにより、分割モデル生成システム10は、変換に適した単位に文を分割することができる。その結果、機械翻訳処理または自然言語処理等の文の品質を向上することができる。
The divided
特許の明細書など技術文書の場合には、文が入れ子構造を持つケースがある。単純に長文を分割して互いに独立な複数の文に分割すると、元々係り元と係り先の関係にある単語が、前後に分かれてしまう可能性がある。分割モデル生成システム10が意味表現ごとに文を分割する分割モデル144を生成することによって、編集部20は、係り受け関係を保持しながら文を分割することができる。
In the case of technical documents such as patent specifications, there are cases where sentences have a nested structure. If a long sentence is simply divided into a plurality of sentences that are independent of each other, the words that are originally related to each other may be separated into front and back. By generating the
長文に対して単純に分割処理を行う場合、後の文が前の文脈と完全に切り離されてしまうことが考えられる。分割モデル生成部14の学習データ分割部144は、既に分割された文に関係するデータを参照して、次に分割する意味表現データを抽出することによって、前の文との照応関係が明確な文を生成することができる。
When a long sentence is simply divided, it is possible that the later sentence is completely separated from the previous context. The learning
翻訳処理に適した表現は、言語間に違いがあるため、翻訳元の文から、翻訳先の言語に適した表現を推論することが困難である。分割モデル生成システム10は、翻訳元のソース言語と、翻訳先のターゲット言語と、で作成されたコーパスを用いて分割モデル144を学習することによって、ターゲット言語の特徴を考慮したうえで、翻訳元の文を翻訳に適した処理単位に分割することができる。
Since there are differences between languages in expressions suitable for translation processing, it is difficult to infer expressions suitable for the target language from the source sentence. The division
所定の対応関係を有する第1文と第2文との組み合わせを、学習データとして学習データ生成部12が生成することによって、分割モデル生成部14は、第1文と第2文とを対比させて分割モデル144を生成することができる。これにより、分割モデル生成部14は、意味表現ごとに分割する分割モデル144を生成することができる。
The learning
第1の文書データ71と、第2の文書データ72とが所定の項目で並べられた複数の項目を有することによって、学習データ生成部12は、各項目を基準にして学習用データを抽出することができる。これにより、学習データ生成部12は、各項目の基準がない状態に比べて、効率よく学習用データを抽出することができる。
Since the
分割モデル生成部14は、第1文および第2文を意味表現ごとに分割することによって、分割モデルを生成する。これにより、分割モデル生成部14は、意味表現ごとに分割する分割モデルを生成することができる。
The division
テキスト分割装置1は、分割モデル生成システム10と、編集部20と、を備えることによって、分割モデル144に基づいて、所定の文書データ331を分割することができる。これにより、テキスト分割装置は、所定の文書データ331を意味表現ごとに分割することができる。
The
さらに、テキスト分割装置1は、変換処理部30を備えることによって、所定の文書データ331を他の文に変換することができる。これにより、テキスト分割装置1は、所定の文書データ331の翻訳および所定の文書データ331の校正等をすることができる。
Further, the
編集部20は、分割評価部25と、分割結果抽出部27と、を備えることによって、分割部24にて分割した文の中から、変換に適した文を選択することができる。これにより、変換処理部30にて変換した文の品質を向上させることができる。
By providing the
さらに、テキスト分割装置1は、変換評価部40を備えることによって、分割モデル144を用いて変換結果の評価をすることができる。これにより、変換評価部40は、言語間の構造の差異に依存しない意味表現データを用いて、変換結果の評価をすることができる。
Further, the
本実施例は、第1実施例の変形例に相当する為、第1実施例との差異を中心に説明する。図12は、テキスト分割装置1aの概略図である。テキスト分割装置1aは、後述する係り受けモデルを用いて、一つの文を複数の文に分割する。テキスト分割装置1aは、例えば、分割モデル生成システム10aと、編集部20aと、変換処理部30と、変換評価処理部40と、言語サーバ50とを有する。
Since this embodiment corresponds to a modified example of the first embodiment, the differences from the first embodiment will be mainly described. FIG. 12 is a schematic view of the text segmentation device 1a. The text segmentation device 1a divides one sentence into a plurality of sentences by using the dependency model described later. The text segmentation device 1a includes, for example, a division
分割モデル生成システム10aは、文を分割する分割モデル144と、係り受け関係に基づいて文を分割する係り受けモデルとを生成する機能である。分割モデル生成システム10は、例えば、入力部11と、学習データ生成部12と、学習データ記憶部13aと、分割モデル生成部14aと、係り受けモデル生成部15と、を有する。
The division
学習データ記憶部13aは、学習データを記録するデータベースである。学習データ記憶部13aは、分割モデル生成部14aおよび係り受けモデル生成部15へ学習データを供給する。
The learning
分割モデル生成部14aは、学習データに基づいて、文書を分割する分割モデル144を生成する機能である。分割モデル生成部14aは、第1文と第2文とを意味表現ごとに分割し、分割された第1文と分割された第2文とに基づいて分割モデル144を生成する。分割モデル生成部14aは、分割モデル記憶部23へ分割モデル144を保存する。分割モデル生成部14aは、係り受けモデル生成部15へ分割モデル144を送信する。分割モデル生成部14aは、係り受けモデル生成部15から係り受けモデルを取得し、係り受けモデルに基づいて分割モデル144を生成してもよい。
The division
係り受けモデル生成部14aは、文の係り受け関係に基づいて文を分割する係り受けモデルを生成する機能である。係り受けモデル生成部14aは、学習用データと、分割モデル生成部14aにて生成された分割モデル144と、に基づいて、係り受けモデルを生成する。係り受けモデル生成部15は、分割モデル記憶部23aへ係り受けモデルを保存する。
The dependency
編集部20aは、分割モデル144または係り受けモデルの少なくともいずれか一方に基づいて、一つの所定の文を複数の文に分割する機能である。編集部20aは、例えば、入力部21と、分割対象選択部22と、分割モデル記憶部23aと、分割部24aと、分割評価部25と、評価提示部26と、分割結果抽出部27と、変換データ記憶部28と、を有する。
The
分割モデル記憶部23aは、分割モデル144および係り受けモデルを記憶するデータベースである。分割モデル記憶部23aは、分割部24aへ分割モデル144または、係り受けモデルの少なくとも一方を送信する。分割部24aは、分割モデル144または係り受けモデルの少なくともいずれか一方に基づいて、一つの分割対象の文を複数の文に分割する機能である。分割部24aは、分割評価部25へ分割後の文のデータを送信する。
The division
図13は、係り受けモデル生成部15の処理の流れ図である。係り受けモデル生成部15は、学習用データを学習データ記憶部13aから取得する(S31)。係り受けモデル生成部15は、例えば、第1文の「JP:Sen」を学習データ記憶部13aから取得する(図6参照)。
FIG. 13 is a processing flow chart of the dependency
係り受けモデル生成部15は、分割モデル生成部14aから、学習データの分割結果を取得する(S32)。係り受けモデル生成部15は、例えば、「JP:Seg1」と、「JP:Seg2」と、「JP:Seg3」と、を取得する(図7参照)。
The dependency
係り受けモデル生成部15は、係り受けモデルを生成する(S33)。係り受けモデル生成部15は、例えば、「JP:Sen」と、「JP:Seg1」、「JP:Seg2」および「JP:Seg3」と、を比較することによって、「JP:Sen」の一つの文の係り受け関係を学習する。係り受けモデル生成部15は、学習結果を係り受けモデルとして生成する。係り受けモデル生成部15は、係り受けモデルを分割モデル記憶部23aに保存する(S34)。
The dependency
図14は、編集部20aの処理の流れ図である。編集部20aは、入力部21の処理(S21)と、分割対象選択部22の処理(S22)と、分割部24aの処理(S41,S42)と、分割評価部25の処理(S24)と、評価提示部26の処理(S25)と、分割結果抽出部27の処理(S26〜S28)とによって実行される。編集部20aは、ユーザの操作によって開始される。
FIG. 14 is a processing flow chart of the
編集部20aの処理は、入力部21の処理(S21)に移動し、入力部21が所定の文書データ331を取得する。分割対象選択部22は、所定の文書データ331の中から分割対象の文を抽出する(S22)。
The processing of the
分割部24aは、分割モデル144または係り受けモデルの少なくともいずれか一方を分割モデル記憶部23aから取得する(S41)。分割部24aは、分割モデル144または係り受けモデルの少なくともいずれか一方に基づいて、分割対象データを分割する(S42)。分割部24aは、分割評価部25に分割結果を送信する。
The
本実施例に示すテキスト分割装置1aは、係り受けモデル生成部15を備えることによって、文の係り受け関係に基づいて、一つの文を複数の文に分割することができる。これにより、言語の種類が変わらない文書の校正等でも、編集部20aは、文書の変換に適する長さに文を分割することができる。その結果、テキスト分割装置1は、文の変換の品質を向上することができる。
The text segmentation device 1a shown in this embodiment includes the dependency
コンピュータを、分割モデル生成システムとして機能させるためのコンピュータプログラムは、コンピュータ上に、複数の第1文を含んで構造化された第1の文書データと、複数の第2文を含んで構造化された第2の文書データとが入力される入力部と、複数の第1文と複数の第2文とのうち、所定の対応関係にある第1文と第2文との組み合わせを学習データとして生成する学習データ生成部と、生成された学習データを記憶する学習データ記憶部と、学習データ記憶部に記憶された学習データに基づいて学習し、文を分割する分割モデル144を生成する分割モデル生成部と、をそれぞれ実現させる
A computer program for making a computer function as a split model generation system is structured on a computer by including a first document data structured including a plurality of first sentences and a plurality of second sentences. The combination of the input unit into which the second document data is input and the first sentence and the second sentence having a predetermined correspondence relationship among the plurality of first sentences and the plurality of second sentences is used as learning data. A division model that generates a
なお、本発明は上述の実施形態に限定されず、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。 The present invention is not limited to the above-described embodiment, and includes various modifications. The above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to those having all the described configurations. It is also possible to replace a part of the configuration of one embodiment with the configuration of another embodiment. It is also possible to add the configuration of another embodiment to the configuration of one embodiment. In addition, other configurations can be added / deleted / replaced with respect to a part of the configurations of each embodiment.
上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。 Each of the above configurations, functions, processing units, processing means, and the like may be realized by hardware, for example, by designing a part or all of them with an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
また、上述した実施形態に含まれる技術的特徴は、特許請求の範囲に明示された組み合わせに限らず、適宜組み合わせることができる。 Further, the technical features included in the above-described embodiment are not limited to the combinations specified in the claims, and can be appropriately combined.
1…テキスト分割装置,10…分割モデル生成システム,11…入力部,12…学習データ生成部,13…学習データ記憶,14…分割モデル生成部,141…第1ターゲットデータ変換部,142…第1ソースデータ変換部,143…集約部,144…学習データ分割部,145…第2ターゲットデータ変換部,146…第2ソースデータ変換部,20…編集部,30…変換処理部,40…変換評価処理部,50…言語サーバ
1 ... text division device, 10 ... division model generation system, 11 ... input unit, 12 ... training data generation unit, 13 ... training data storage, 14 ... division model generation unit, 141 ... first target data conversion unit, 142 ... first 1 Source data conversion unit, 143 ... Aggregation unit, 144 ... Learning data division unit, 145 ... Second target data conversion unit, 146 ... Second source data conversion unit, 20 ... Editing unit, 30 ... Conversion processing unit, 40 ... Conversion Evaluation processing unit, 50 ... Language server
Claims (10)
前記複数の第1文と前記複数の第2文とのうち、所定の対応関係にある第1文と第2文との組み合わせを学習データとして生成する学習データ生成部と、
前記生成された学習データを記憶する学習データ記憶部と、
前記学習データ記憶部に記憶された学習データに基づいて学習し、文を分割する分割モデルを生成する分割モデル生成部と、を有する
分割モデル生成システム。 An input unit for inputting a first document data structured including a plurality of first sentences and a second document data structured including a plurality of second sentences.
A learning data generation unit that generates learning data by combining a combination of the first sentence and the second sentence having a predetermined correspondence relationship among the plurality of first sentences and the plurality of second sentences.
A learning data storage unit that stores the generated learning data,
A division model generation system including a division model generation unit that learns based on the learning data stored in the training data storage unit and generates a division model that divides a sentence.
請求項1に記載の分割モデル生成システム。 The division according to claim 1, wherein the predetermined correspondence relationship is such that the combination of the first sentence and the second sentence includes at least one of a one-to-many relationship, a many-to-one relationship, and a many-to-many relationship. Model generation system.
前記学習データ生成部は、
前記第1の文書データの各項目と前記第2の文書データの各項目とのうち対応する項目間で、前記第1文と前記第2文とを抽出する
請求項1に記載の分割モデル生成システム。 The first document data and the second document data have a plurality of items arranged in a predetermined order, and the learning data generation unit has a plurality of items.
The division model generation according to claim 1, wherein the first sentence and the second sentence are extracted between the corresponding items of each item of the first document data and each item of the second document data. system.
前記分割モデル生成部は、
前記第1文と前記第2文とを前記ひとかたまりの意味表現ごとに分割し、
前記分割された第1文と前記分割された第2文とに基づいて前記分割モデルを生成する
請求項1に記載の分割モデル生成システム。 The first sentence and the second sentence having a predetermined correspondence relationship include a plurality of a set of semantic expressions.
The split model generator
The first sentence and the second sentence are divided according to the semantic expression of the group.
The divided model generation system according to claim 1, wherein the divided model is generated based on the divided first sentence and the divided second sentence.
請求項1に記載の分割モデル生成システム。 The division model generation system according to claim 1, further comprising a dependency learning unit that learns the dependency relationship of sentences based on the learning result of the division model generation unit.
前記分割モデル生成システムが生成した分割モデルに基づいて、一つの所定の文を複数の文に分割する編集部と、を備え、
前記編集部は、
複数の文を含んで構造化された所定の文書データが入力される入力部と、
前記所定の文書データの中から分割対象の文を選択する分割対象文選択部と、
前記分割モデルに基づいて、一つの分割対象の文を複数の文に分割する分割部と、を備える
テキスト分割装置。 The split model generation system according to claim 1 and
It is provided with an editorial unit that divides one predetermined sentence into a plurality of sentences based on the division model generated by the division model generation system.
The editorial department
An input unit in which predetermined document data structured including a plurality of sentences is input, and
A division target sentence selection unit that selects a division target sentence from the predetermined document data,
A text segmentation device including a division unit that divides one sentence to be divided into a plurality of sentences based on the division model.
請求項6に記載のテキスト分割装置。 The text segmentation device according to claim 6, wherein the text segmentation device includes a conversion processing unit that converts the plurality of divided sentences into other sentences.
所定の評価指標に基づいて、前記分割部の分割結果を評価する分割評価部と、
前記分割評価部の評価に基づいて、前記分割部にて分割された複数の文の中から、前記変換処理部にて変換する文を抽出する分割結果抽出部と、を有する
請求項7に記載のテキスト分割装置。 Furthermore, the editorial department
A division evaluation unit that evaluates the division result of the division unit based on a predetermined evaluation index,
The seventh aspect of claim 7 includes a division result extraction unit that extracts a sentence to be converted by the conversion processing unit from a plurality of sentences divided by the division evaluation unit based on the evaluation of the division evaluation unit. Text segmentation device.
請求項7に記載のテキスト分割装置。 The text segmentation device according to claim 7, further comprising a conversion evaluation processing unit that evaluates the conversion accuracy of the conversion processing unit.
前記計算機は、
入力された第1の文書データに含まれる複数の第1文と、入力された第2の文書データに含まれる複数の第2文とのうち、所定の対応関係にある第1文と第2文との組み合わせを学習データとして生成し、
前記生成された学習データに基づいて、文書を分割する分割モデルを生成する
分割モデル生成方法。 It is a division model generation method that generates a division model that divides a document by a computer.
The calculator
Of the plurality of first sentences included in the input first document data and the plurality of second sentences included in the input second document data, the first sentence and the second sentence having a predetermined correspondence relationship. Generate a combination with a sentence as learning data,
A division model generation method for generating a division model that divides a document based on the generated learning data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019065706A JP2020166501A (en) | 2019-03-29 | 2019-03-29 | Segmentation model generation system, text segmentation device and segmentation model generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019065706A JP2020166501A (en) | 2019-03-29 | 2019-03-29 | Segmentation model generation system, text segmentation device and segmentation model generation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020166501A true JP2020166501A (en) | 2020-10-08 |
Family
ID=72717494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019065706A Pending JP2020166501A (en) | 2019-03-29 | 2019-03-29 | Segmentation model generation system, text segmentation device and segmentation model generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020166501A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023157065A1 (en) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | Long sentence splitting apparatus, system, long sentence splitting method, and program |
-
2019
- 2019-03-29 JP JP2019065706A patent/JP2020166501A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023157065A1 (en) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | Long sentence splitting apparatus, system, long sentence splitting method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222167B2 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
US9262403B2 (en) | Dynamic generation of auto-suggest dictionary for natural language translation | |
JP4058071B2 (en) | Example translation device, example translation method, and example translation program | |
US11526481B2 (en) | Incremental dynamic document index generation | |
JP5802292B2 (en) | Shared language model | |
US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
CN102298582A (en) | Data searching and matching method and system | |
JP2007004633A (en) | Language model generation device and language processing device using language model generated by the same | |
JP2021182438A (en) | Moving image generating method, device, electronic apparatus, and computer readable medium | |
US10410632B2 (en) | Input support apparatus and computer program product | |
CN109359308B (en) | Machine translation method, device and readable storage medium | |
JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
US20210342534A1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP2020166501A (en) | Segmentation model generation system, text segmentation device and segmentation model generation method | |
JPWO2008108061A1 (en) | Language processing system, language processing method, language processing program, and recording medium | |
KR20210040318A (en) | Similarity processing method, apparatus, server and storage medium | |
JP2015082204A (en) | Machine translation device, machine translation program, and machine translation method | |
CN112699642B (en) | Index extraction method and device for complex medical texts, medium and electronic equipment | |
JP6549064B2 (en) | Speech recognition device, speech recognition method, program | |
JP2019057137A (en) | Information processing apparatus and information processing program | |
JP2022017173A (en) | Method and device for outputting information, electronic device, computer-readable storage medium, and computer program | |
JP7247593B2 (en) | Generation device, software robot system, generation method and generation program | |
JP5803481B2 (en) | Information processing apparatus and information processing program | |
JP4035111B2 (en) | Parallel word extraction device and parallel word extraction program | |
Hosseinpour et al. | Stylistic Issues in Translations of Modern Literary Texts: Enhancing Baker’s (1996) model through Beckett’s Malone Dies |