JP7477359B2

JP7477359B2 - 文章作成装置

Info

Publication number: JP7477359B2
Application number: JP2020083177A
Authority: JP
Inventors: 聡一朗村上
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2024-05-01
Anticipated expiration: 2040-05-11
Also published as: JP2021179665A

Description

本発明は、文章作成装置に関する。

特許文献１には、第二言語文を第一言語の語順に変換する並替モデル生成装置が記載されている。並替モデル生成装置は、第一言語文を構成する各単語と同じ意味を持つ第二言語文を構成する単語と対応付けた後、第二言語文を構成する各文節を、第一言語文を構成するただ１つの単語に対応付け、その各文節に対応付けられた単語の第一言語文における順序に基づいて第二言語文を構成する文節を並び替える。並替モデル生成装置は、第二言語文を構成する各文節を、第一言語文を構成するただ１つの単語に対応付けるために、第二言語文の文節に含まれる機能語の対応付けを消し、一番確からしい対応付けがなされている自立語の対応付けを残す。

特開２０１３－１１７８８８号公報

ところで、既存の対訳コーパスには逐次通訳に適した２言語間の訳文が集約されているため、同時通訳に適した訳文が集約されていない。既存の対訳コーパスに基づいて構築された翻訳モデルを用いて同時通訳を行った場合、対象の言語の文章が順次入力されてから訳文が出力されるまでの待ち時間が大きくなる可能性がある。

ここで、特許文献１に記載の並替モデル生成装置を利用して同時通訳用の対訳コーパスを作成することが考えられる。特許文献１の並替モデル生成装置は、対応付けにおいて文節内の自立語を選択し、当該自立語を基準として文節を並び替えている。したがって、特許文献１の並替モデル生成装置は、第二言語文において自立語又は機能語の判別を行う処理と、一番確からしい対応づけがなされている自立語の対応付けを残す処理とを行うため、処理が煩雑である。このことから、同時通訳用の対訳コーパスをより容易に作成することができる文章作成装置が求められている。

本発明は、同時通訳用の対訳コーパスをより容易に作成することができる文章作成装置を提供することを目的とする。

本発明の一側面に係る文章作成装置は、第１言語の第１文章、及び第１文章の訳文である第２言語の第２文章を取得する取得部と、第１文章及び第２文章のそれぞれを形態素解析する解析部と、第２文章において形態素を有するすべての文節を検出する検出部と、第１文章の形態素と第２文章の形態素とを各形態素の意味に基づきそれぞれ対応付ける対応付け部と、第２文章の形態素に対応付けられた第１文章における第１文章の形態素の位置を示すインデックスに基づき、第２文章の各文節における特徴量を導出する導出部と、第２文章の各文節の特徴量に基づき、第２文章の文節を配列して第３文章を作成する作成部と、を備える。

この文章作成装置によれば、第２文章の各文節の特徴量により第２文章の文節が配列され、第３文章が作成される。当該特徴量は第１文章の形態素のインデックスに基づいて導出されるため、第２文章の文節を配列するまでに複雑な処理を必要せず、第３文章を作成するまでの時間を短縮することができる。第３文章は第１文章の各形態素の位置を考慮した文章となるため、例えば、第３文章は、第１文章を第２言語で同時通訳した文章として作成されうる。よって、同時通訳用の対訳コーパスをより容易に作成することができる。

本発明によれば、同時通訳用の対訳コーパスをより容易に作成することができる。

図１は、一実施形態に係る文章作成装置の構成を示す図である。図２は、図１に示される解析部による形態素解析処理の一例を示す図である。図３は、図１に示される検出部による文節区切り処理の一例を示す図である。図４は、図１に示される対応付け部による形態素間の対応付け処理の一例と、図１に示される導出部による特徴量導出処理の一例とを示す図である。図５は、図１に示される作成部による並び替え処理の一例を示す図である。図６は、図１に示される文章作成装置で実行される文章作成方法の一連の処理を示すフローチャートである。図７は、別の実施形態に係る文章作成装置の構成を示す図である。図８は、一実施形態に係る文章作成装置のハードウェア構成を示す図である。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、一実施形態に係る文章作成装置の構成を示す図である。図１に示される文章作成装置１は、第１言語の第１文章Ｔ１１の語順に第２言語の第２文章Ｔ２１を並び替えることによって、第２言語の第３文章Ｔ３１を作成する装置である。第２文章Ｔ２１は、第１文章Ｔ１１を第２言語に翻訳した文章（訳文）である。第１文章Ｔ１１、第２文章Ｔ２１、及び第３文章Ｔ３１は、例えば、テキストデータである。

第１言語及び第２言語は、それぞれ互いに異なる言語である。例えば、第１言語は英語であり、第２言語は日本語である。第１言語で構成された文章の文型（語順）は、第２言語で構成された文章の文型（語順）と異なっていてもよい。例えば、第１言語の文章と第２言語の文章とでは、主語（Ｓ：Ｓｕｂｊｅｃｔ）、目的語（Ｏ：Ｏｂｊｅｃｔ）、及び動詞（Ｖ：Ｖｅｒｂ）の順序が異なる。例えば、第１言語の文章における典型的な文型はＳＶＯ型であり、第２言語の文章における典型的な文型はＳＯＶ型である。例えば、第３文章Ｔ３１の文型は、第２文章Ｔ２１の文型とは異なり、第１文章Ｔ１１の文型と同一である。第１文章Ｔ１１が補語（Ｃ：Ｃｏｍｐｌｅｍｅｎｔ）又は修飾語（Ｍ：Ｍｏｄｉｆｉｅｒ）を含む場合においても、第３文章Ｔ３１の文型は、第１文章Ｔ１１の文型と同一である。

文章作成装置１は、例えば、サーバ装置によって実現される。文章作成装置１は、複数のサーバ装置、即ち、コンピュータシステムによって実現されてもよい。文章作成装置１は、文章作成装置１の外部に設けられた第１対訳コーパス８２及び第２対訳コーパス８４と通信可能に構成されている。

第１対訳コーパス８２及び第２対訳コーパス８４は、それぞれ情報を記憶するデータベースとして機能する機能部である。第１対訳コーパス８２及び第２対訳コーパス８４は、例えば、メモリ及びストレージの少なくとも一方を含むデータベース、サーバ、又はその他の適切な媒体によってそれぞれ実現される。

第１対訳コーパス８２は、例えば、逐次通訳用の対訳コーパスである。第２対訳コーパス８４は、例えば、同時通訳用の対訳コーパスである。対訳コーパスとは、機械翻訳の学習データとして利用するために構築された、互いに異なる言語の文と文とが対訳の形でまとめられた対訳データのコーパス（文のデータベース）である。つまり、第１対訳コーパス８２は、複数の第１対訳データを含み、各第１対訳データは、互いに対応付けられた第１文章Ｔ１１と、当該第１文章の訳文である第２文章Ｔ２１との組み合わせである。第２対訳コーパス８４は、複数の第２対訳データを含み、各第２対訳データは、互いに対応付けられた第１文章Ｔ１１と、当該第１文章の訳文である第２文章Ｔ２１の文節を並び替えた第３文章Ｔ３１との組み合わせである。

引き続いて、本実施形態に係る文章作成装置１の機能を説明する。図１に示されるように文章作成装置１は、機能的には、取得部１０と、解析部２０と、検出部３０と、対応付け部４０と、導出部５０と、作成部６０とを備える。

取得部１０は、第１文章Ｔ１１及び第２文章Ｔ２１の第１対訳データを取得する機能部である。取得部１０は、第１対訳コーパス８２から情報を取得可能なように構成されている。取得部１０は、例えば、第１対訳コーパス８２から第１対訳データを取得する。取得部１０は、例えば、第２対訳コーパス８４内に記憶されていない第１文章Ｔ１１を含む第１対訳データを、第１対訳コーパス８２から取得する。取得部１０は、取得した第１文章Ｔ１１及び第２文章Ｔ２１を解析部２０に出力する。取得部１０は、作成部６０に第１文章Ｔ１１を出力する。

解析部２０は、第１文章Ｔ１１及び第２文章Ｔ２１のそれぞれを形態素解析する機能部である。形態素解析とは、例えば、テキストデータから、ある対象言語の文法及び品詞等の情報に基づき、形態素（Morpheme）の列に分割し、各形態素の品詞等を判別する処理である。形態素は、例えば、意味を有する最小の言語単位である。解析部２０は、例えば、公知の形態素解析手法を利用して、第１文章Ｔ１１及び第２文章Ｔ２１のそれぞれを形態素解析する。公知の形態素解析手法とは、例えば、条件付き確率場（CRF：Conditional Random Fields）、隠れマルコフモデル（Hidden Markov Model）、又はリカレントニューラルネットワークに基づく手法である。公知の形態素解析手法は、例えば、ルールベース手法であってもよい。具体的な形態素解析ツールとして、解析部２０は、例えば第１文章Ｔ１１にはＮＬＴＫ（Natural Language Toolkit）を適用し、第２文章Ｔ２１にはＭｅＣａｂ（Yet Another Part-of-Speech and Morphological Analyzer）を適用する。なお、解析部２０は、形態素の代わりに単語を用いて解析処理を実行してもよい。

図２は、図１に示される解析部による形態素解析処理の一例を示す図である。図２に示されるように、解析部２０は、取得部１０により取得された第１文章Ｔ１１及び第２文章Ｔ２１のそれぞれを形態素解析する。解析部２０は、例えば、第１文章Ｔ１１に対して形態素解析を行い、第１文章Ｔ１１の文頭から文末に向かって順に形態素２ａ，２ｂ，２ｃ，２ｄ，２ｅ，２ｆ，２ｇ，２ｈ，２ｉを抽出する。解析部２０は、例えば、第２文章Ｔ２１に対して形態素解析を行い、第２文章Ｔ２１の文頭から文末に向かって順に形態素３ａ，３ｂ，３ｃ，３ｄ，３ｅ，３ｆ，３ｇ，３ｈ，３ｉ，３ｊ，３ｋを抽出する。解析部２０は、上述のように第１文章Ｔ１１及び第２文章Ｔ２１をそれぞれ構成するすべての形態素を抽出する。

解析部２０は、形態素２ａ～２ｉに対してインデックス２ｐを付与する。当該インデックス２ｐは第１文章Ｔ１１における形態素２ａ～２ｉにおける形態素の位置（順番）を示す。インデックス２ｐは、第１文章Ｔ１１の文頭から文末に向かって増加する昇順の番号であってもよいし、第１文章Ｔ１１の文頭から文末に向かって減少する降順の番号であってもよい。本実施形態では、解析部２０は、当該インデックス２ｐとして、形態素２ａ～２ｉのそれぞれに対して昇順の番号を付与する。解析部２０は、例えば、第１文章Ｔ１１において文頭に位置する形態素２ａに「０」を付与する。解析部２０は、以降の各形態素２ｂ～２ｉに対して、それぞれ直前の形態素に付与された番号に１を加えた番号を付与する。

解析部２０は、形態素２ａ～２ｉの配列、及びインデックス２ｐを第１解析文章Ｔ１２として対応付け部４０に出力する。解析部２０は、形態素３ａ～３ｋの配列を第２解析文章Ｔ２２として検出部３０に出力する。

検出部３０は、第２文章Ｔ２１におけるすべての文節を検出する機能部である。検出部３０は、例えば、第２解析文章Ｔ２２を用いて、文節間の区切りを行う文節区切り処理を行うことで第２文章Ｔ２１の文節を検出する。検出部３０による文節区切り処理により第２解析文章Ｔ２２の文節間が区切られることで、互いに隣り合う２つの区切りの間、文頭と最初の区切りとの間、及び最後の区切りと文末との間の語句がそれぞれ文節として検出される。なお、最初の区切りとは、複数の区切りのうちの文頭に最も近い区切りである。最後の区切りとは、複数の区切りのうちの文末に最も近い区切りである。検出部３０は、例えば、公知の文節区切り手法を利用して、文節区切り処理を実行する。公知の文節区切り手法とは、例えば、サポートベクターマシン（Support Vector Machine）、又はニューラルネットワークに基づく手法である。具体的な文節区切りツールとして、検出部３０は、例えばＣａｂｏＣｈａ（Yet Another Japanese Dependency Structure Analyzer）を用いる。

図３は、図１に示される検出部による文節区切り処理の一例を示す図である。図３に示されるように、検出部３０は、例えば、第２解析文章Ｔ２２に対して文節区切り処理を行う。具体的には、検出部３０は、第２解析文章Ｔ２２に区切り４を挿入することによって第２解析文章Ｔ２２を区切る。検出部３０は、文頭と最初の区切り４との間に位置する形態素の配列（形態素３ａ，３ｂ）を文節５ａとして検出する。検出部３０は、最初の区切り４と２番目の区切り４との間に位置する形態素の配列（形態素３ｃ，３ｄ，３ｅ）を文節５ｂとして検出する。検出部３０は、文頭から２番目の区切り４と最後の区切り４との間に位置する形態素の配列（形態素３ｆ，３ｇ）を文節５ｃとして検出する。検出部３０は、最後の区切り４と文末との間に位置する形態素の配列（形態素３ｈ，３ｉ，３ｊ，３ｋ）を文節５ｄとして検出する。上述のように、検出部３０は、第２解析文章Ｔ２２においてすべての文節５ａ～５ｄを検出する。

検出部３０は、文節５ａ～５ｄの配列を検出文章Ｔ２３として対応付け部４０に出力する。なお、検出部３０は、第２解析文章Ｔ２２に代えて、第２文章Ｔ２１に対して文節区切り処理を実行してもよい。検出部３０は、すべての文節ではなく第２解析文章Ｔ２２のうち一部の文節のみを検出してもよい。

対応付け部４０は、第１文章Ｔ１１の形態素２ａ～２ｉと第２文章Ｔ２１の形態素３ａ～３ｋとを各形態素の意味に基づきそれぞれ対応付ける機能部である。対応付け部４０は、例えば、対応付け処理（単語アライメント処理）を行う。単語アライメント処理とは、形態素２ａ～２ｉと形態素３ａ～３ｋとの間の対応関係を取る処理である。例えば、単語アライメント処理では、形態素２ａ～２ｉのうち１つの形態素の意味と形態素３ａ～３ｋのうち少なくとも１つの形態素の意味とが類似していれば、当該形態素の間に対応関係があると判定される。対応付け部４０は、例えば、公知の単語アライメント手法を利用して、単語アライメント処理を実行する。公知の単語アライメント手法とは、例えば、確率モデル、又はヒューリスティクスに基づくアライメント手法である。具体的な単語アライメントツールとして、検出部３０は、例えばＩＢＭモデル２を用いる。検出部３０は、単語アライメントツールとして、例えば、ＩＢＭモデル１、ＩＢＭモデル３、ＩＢＭモデル４、又はＩＢＭモデル５を用いてもよい。

図４は、図１に示される対応付け部による形態素間の対応付け処理の一例と、図１に示される導出部による特徴量導出処理の一例とを示す図である。図４に示されるように、対応付け部４０は、例えば、第１解析文章Ｔ１２及び検出文章Ｔ２３を用いて対応付け処理を実行する。なお、対応付け部４０は、第１解析文章Ｔ１２及び第２解析文章Ｔ２２を用いて対応付け処理を実行してもよい。例えば、形態素３ａ～３ｋに含まれる１つの形態素に、形態素２ａ～２ｉのうちの１つの形態素が対応付けられる。形態素２ａ～２ｉの形態素は、形態素３ａ～３ｋに含まれる１以上の形態素に対応付けられるが、いずれの形態素にも対応付けられないこともある。

対応付け部４０は、例えば、形態素３ａ～３ｋの中から、形態素２ｂと意味が類似する形態素を検索し、形態素３ｃが類似すると判定して形態素２ｂと形態素３ｃとを対応付ける。対応付け部４０は、例えば、形態素３ａ～３ｋの中から、形態素２ａと意味が類似する形態素を検索し、形態素３ｅ及び形態素３ｉが類似すると判定して形態素２ａと形態素３ｅとを対応付けるとともに、形態素２ａと形態素３ｉとを対応付ける。図４に示される例では、対応付け部４０は、例えば、形態素３ａ～３ｋのすべての形態素を形態素２ａ～２ｉのいずれかに対応付けている。対応付け部４０は、形態素３ａ～３ｋのいずれかを形態素２ａ～２ｉに対応付けなくてもよい。対応付け部４０は、形態素間の対応関係を示す情報、第１解析文章Ｔ１２及び検出文章Ｔ２３を導出部５０に出力する。

導出部５０は、文節５ａ～５ｄのそれぞれの特徴量を導出する機能部である。当該特徴量は、各文節に含まれる形態素に対応付けられた形態素２ａ～２ｉのインデックス２ｐに基づき導出される。導出部５０は、文節５ａ～５ｄのそれぞれについて、文節に含まれる複数の形態素に対応付けられる第１文章Ｔ１１の形態素のインデックス２ｐを抽出し、抽出されたインデックス２ｐの組み合わせのうちの最小値を特徴量として導出する。

以下、特徴量導出処理について詳細に説明する。図４に示されるように、導出部５０は、形態素３ａ～３ｋに対応付けられた形態素２ａ～２ｉのインデックス２ｐを、文節５ａ～５ｄの１文節ごとに抽出する。例えば、最初の文節である文節５ａは、形態素３ａ及び形態素３ｂを含む。形態素３ａは形態素２ｈと対応付けられており、形態素３ｂは形態素２ｃと対応付けられている。よって、導出部５０は、文節５ａに対して、形態素２ｈのインデックス２ｐである「７」と、形態素２ｃのインデックス２ｐである「２」とを抽出し、これらのインデックス２ｐの組み合わせ（７，２）を抽出量７ａとして得る。対応付け部４０は、文節５ｂ，５ｃ，５ｄに対しても同様の処理を行うことによって、文節５ｂ，５ｃ，５ｄの抽出量７ｂ，７ｃ，７ｄを得る。文節５ｂの抽出量７ｂは（１，２，０）であり、文節５ｃの抽出量７ｃは（５，４）であり、文節５ｄの抽出量７ｄは（３，０，８，８）である。

導出部５０は、抽出量７ａ～７ｄに基づき、特徴量８ａ～８ｄをそれぞれ導出する。図４に示される例では、導出部５０は、抽出量に含まれるインデックス２ｐのうちの最小値を特徴量として導出する。例えば、導出部５０は、抽出量７ａである（７，２）から最小値である「２」を文節５ａの特徴量８ａとして導出する。導出部５０は、文節５ｂ，５ｃ，５ｄについても同様の処理を行うことによって、文節５ｂの特徴量８ｂ、文節５ｃの特徴量８ｃ、及び文節５ｄの特徴量８ｄを導出する。文節５ｂの特徴量８ｂは「０」であり、文節５ｃの特徴量８ｃは「４」であり、文節５ｄの特徴量８ｄは「０」である。導出部５０は、検出文章Ｔ２３及び特徴量８ａ～８ｄを作成部６０に出力する。

作成部６０は、特徴量８ａ～８ｄに基づき、文節５ａ～５ｄを配列して第３文章Ｔ３１を作成する機能部である。作成部６０は、例えば、文節５ａ～５ｄを並び替えて第３文章Ｔ３１を作成する並び替え処理を実行する。第３文章Ｔ３１は、第１言語で構成される第１文章Ｔ１１が第２言語で訳され、かつ、第２言語で記載された文節５ａ～５ｄが第１文章Ｔ１１の文型に従って並んでいる文章となる。作成部６０は、例えば、特徴量８ａ～８ｄが第１文章Ｔ１１の文頭から文末に並ぶ形態素２ａ～２ｉのインデックス２ｐの順序に対応するように文節５ａ～５ｄを配列して第３文章Ｔ３１を作成する。例えば、第１文章Ｔ１１の文頭から文末に向けて形態素２ａ～２ｉにインデックス２ｐが昇順に付与されている場合、作成部６０は、特徴量８ａ～８ｄが昇順となるように文節５ａ～５ｄを並び替えることで第３文章Ｔ３１を作成する。

なお、複数の文節における特徴量が同一の値である場合には、作成部６０は、第２文章Ｔ２１における文節の順番に従って、当該複数の文節を配列する。すなわち、複数の文節における特徴量が同一の値である場合、第３文章Ｔ３１における当該複数の文節の順序は、第２文章Ｔ２１における当該複数の文節の順序を保持する。

図５は、図１に示される作成部による並び替え処理の一例を示す図である。図５に示されるように、作成部６０は、特徴量８ａ～８ｄを昇順に並び替える。図５に示される例では、特徴量８ａが「２」であり、特徴量８ｂが「０」であり、特徴量８ｃが「４」であり、特徴量８ｄが「０」である。したがって、作成部６０は、特徴量８ｂ、特徴量８ｄ、特徴量８ａ、特徴量８ｃの順に並び替える。そして、作成部６０は、特徴量の順番に従って、文節５ａ～５ｄを文頭から文末に向けて文節５ｂ、文節５ｄ、文節５ａ、文節５ｃの順に配列する（並び替える）ことによって、第３文章Ｔ３１を作成する。なお、特徴量８ｂと特徴量８ｄとは同一の値であるので、作成部６０は、元の文節の順序を保持して、文節５ｂ、文節５ｄの順に並べる。

図５では、説明の便宜上、第３文章Ｔ３１において区切り４を残しているが、作成部６０は、区切り４を取り除いた上で文節５ａ～５ｄを並び替えることにより、第３文章Ｔ３１を作成してもよい。作成部６０は、取得部１０から取得した第１文章Ｔ１１と第３文章Ｔ３１との組み合わせを第２対訳データとして第２対訳コーパス８４に出力し、第２対訳コーパス８４に記憶させる。

図６は、図１に示される文章作成装置によって実行される文章作成方法の一連の処理を示すフローチャートである。図６に示される一連の処理は、例えば、第１対訳コーパス８２に新たな第１対訳データが格納されることによって開始される。図６に示されるように、まず、取得部１０は取得処理を実行する（ステップＳ１０）。ステップＳ１０では、取得部１０は、第１対訳コーパス８２から第１文章Ｔ１１及び第２文章Ｔ２１を含む第１対訳データを取得する。そして、取得部１０は、第１対訳データを解析部２０に出力する。

続いて、解析部２０は形態素解析処理を実行する（ステップＳ２０）。ステップＳ２０では、解析部２０は、取得部１０から第１対訳データを受け取ると、第１文章Ｔ１１及び第２文章Ｔ２１のそれぞれを形態素解析することによって、第１解析文章Ｔ１２及び第２解析文章Ｔ２２を作成する。そして、解析部２０は、第１解析文章Ｔ１２を対応付け部４０に出力し、第２解析文章Ｔ２２を検出部３０に出力する。

続いて、検出部３０は、文節区切り処理を実行する（ステップＳ３０）。ステップＳ３０では、検出部３０は、解析部２０から第２解析文章Ｔ２２を受け取ると、第２解析文章Ｔ２２に区切り４を挿入して第２解析文章Ｔ２２を区切る。この処理によって、検出部３０は、文節５ａ～５ｄを検出し、検出文章Ｔ２３を作成する。そして、検出部３０は、検出文章Ｔ２３を対応付け部４０に出力する。

続いて、対応付け部４０は、対応付け処理を実行する（ステップＳ４０）。ステップＳ４０では、対応付け部４０は、解析部２０から第１解析文章Ｔ１２を受け取り、検出部３０から検出文章Ｔ２３を受け取ると、第１解析文章Ｔ１２の形態素２ａ～２ｉと検出文章Ｔ２３の形態素３ａ～３ｋとを各形態素の意味に基づき対応付ける。そして、対応付け部４０は、形態素間の対応関係を示す情報、第１解析文章Ｔ１２及び検出文章Ｔ２３を導出部５０に出力する。

続いて、導出部５０は、特徴量導出処理を実行する（ステップＳ５０）。ステップＳ５０では、導出部５０は、対応付け部４０から第１解析文章Ｔ１２及び検出文章Ｔ２３を受け取ると、文節５ａ～５ｄのそれぞれの特徴量８ａ～８ｄを導出する。そして、導出部５０は、検出文章Ｔ２３及び特徴量８ａ～８ｄを作成部６０に出力する。

続いて、作成部６０は、並び替え処理を実行する（ステップＳ６０）。ステップＳ６０では、作成部６０は、導出部５０から検出文章Ｔ２３及び特徴量８ａ～８ｄを受け取ると、特徴量８ａ～８ｄに基づき、文節５ａ～５ｄを配列して第３文章Ｔ３１を作成する。

続いて、作成部６０は、出力処理を実行する（ステップＳ７０）。ステップＳ７０では、作成部６０は、第３文章Ｔ３１と、取得部１０から受け取った第１文章Ｔ１１との組み合わせを第２対訳データとして第２対訳コーパス８４に出力する。当該出力により、作成部６０は、第２対訳データを第２対訳コーパス８４に記憶させる。以上により、文章作成方法の一連の処理が終了する。

文章作成装置１は、例えば、第１対訳コーパス８２におけるすべての第１対訳データに対して、図６に示されるフローチャートの処理を実行する。文章作成装置１においてある第１対訳データに対する処理が終了したとき、文章作成装置１は、未処理の第１対訳データが第１対訳コーパス８２にあるか否かを判定する。文章作成装置１が未処理の第１対訳データがあると判定した場合、取得部１０は未処理の第１対訳データを第１対訳コーパス８２から取得する。文章作成装置１は、第１対訳データのそれぞれに対応する第２対訳データを作成し、第２対訳データを第２対訳コーパス８４に記憶させる。この構成により、文章作成装置１は、第１対訳コーパス８２に対応する第２対訳コーパス８４を作成することができる。文章作成装置１が未処理の第１対訳データが第１対訳コーパス８２にないと判定した場合、文章作成装置１は、第１対訳コーパス８２に対する処理を終了する。

なお、図６に示されるフローチャートにおいて、文章作成装置１は、取得処理（ステップＳ１０）より後であって、特徴量導出処理（ステップＳ５０）の前であれば、文節区切り処理（ステップＳ３０）をいつ実行してもよい。

以上説明した文章作成装置１においては、検出文章Ｔ２３の文節５ａ～５ｄのそれぞれの特徴量８ａ～８ｄにより検出文章Ｔ２３の文節が配列され、第３文章Ｔ３１が作成される。例えば、第２言語の文章に対して自立語又は機能語の判別を行う処理と、一番確からしい対応づけがなされている自立語の対応付けを残す処理とを行う場合と比べて、文章作成装置１では検出文章Ｔ２３の文節５ａ～５ｄを配列する並び替え処理（ステップＳ６０）までに複雑な処理を必要せず、第３文章Ｔ３１を作成するまでの時間を短縮することができる。第３文章Ｔ３１は第１文章Ｔ１１の形態素２ａ～２ｉの位置を考慮した文章となるため、第３文章Ｔ３１は、第１文章Ｔ１１を第２言語で同時通訳した文章として作成される。よって、同時通訳用の対訳コーパスである第２対訳コーパス８４をより容易に作成することができる。第２対訳データが記憶された第２対訳コーパス８４（同時通訳用の対訳コーパス）に基づいて構築された翻訳モデルは、例えば、第１言語の文章を、第２言語に同時通訳することが可能になる。

上述のように作成部６０は、文節５ａ～５ｄのそれぞれの特徴量８ａ～８ｄが第１文章Ｔ１１の文頭から文末に並ぶ形態素２ａ～２ｉのインデックス２ｐの順序（昇順）に対応するように文節５ａ～５ｄのそれぞれを配列して第３文章Ｔ３１を作成している。第３文章Ｔ３１は形態素２ａ～２ｉのインデックス２ｐの順序に対応した文章となるため、文章作成装置１は、第１文章Ｔ１１を第２言語で同時通訳した文章として第３文章Ｔ３１を作成することができる。

上述のように導出部５０は、文節５ａ～５ｄのそれぞれに含まれる形態素に対応付けられた第１解析文章Ｔ１２の形態素のインデックス２ｐのうち最小値を文節５ａ～５ｄのそれぞれの特徴量としている。上記実施形態では、第１解析文章Ｔ１２（第１文章Ｔ１１）の文頭から文末に向かってインデックス２ｐは昇順に割り当てられているので、作成部６０は、特徴量８ａ～８ｄが昇順に並ぶように、文節５ａ～５ｄを配列して第３文章Ｔ３１を作成している。言い換えると、各文節の抽出量のうちの最も小さい値（インデックス２ｐ）を基準として文節が並び替えられる。この構成により、第１文章Ｔ１１の文頭に近い形態素に対応した文節から順に配列され得る。よって、作成された第２対訳コーパス８４（同時通訳用の対訳コーパス）は、逐次入力される第１文章Ｔ１１の形態素を先に早く訳出できるように翻訳モデルを学習させることができる。第１文章Ｔ１１に含まれる形態素は、文頭に近いほど先に訳出される必要がある。したがって、当該翻訳モデルにおいて、第１文章Ｔ１１が入力されてから第３文章Ｔ３１が訳出されるまでの時間を短縮することができる。

なお、第３文章Ｔ３１におけるすべての文節が、必ずしも第１文章Ｔ１１の文頭に近い形態素に対応した文節から順に配列されていなくてもよい。例えば、図５に示されるように、文節５ａ～５ｄのうち文節５ｃに対応した第１文章Ｔ１１のすべての形態素（形態素２ｅ及び形態素２ｆ）が文節５ａに対応した第１文章Ｔ１１の形態素の少なくとも１つ（形態素２ｈ）より文頭に近い位置にあった場合であっても、第３文章Ｔ３１において文節５ｃが文節５ａより文末側に位置する場合もある。この場合であっても、文節５ａ～５ｄのうち少なくとも１つ以上の文節（例えば、文節５ｂ及び文節５ｄ）は、第１文章Ｔ１１の文頭に近い形態素に対応した文節から順に配列される。よって、作成された第２対訳コーパス８４（同時通訳用の対訳コーパス）は、逐次入力される第１文章Ｔ１１の少なくとも一部を先に早く訳出できるように翻訳モデルを学習させることができる。例えば、第１対訳コーパス８２を用いて翻訳モデルが学習された場合、図５の例では、形態素２ｈが入力されるまで、翻訳モデルは何も出力することができない。一方、第２対訳コーパス８４を用いて翻訳モデルが学習された場合、図５の例では、形態素２ｂが入力されると、翻訳モデルは翻訳文の最初の文節（文節５ｂ）のうちの最初の形態素３ｃを出力することができる。したがって、当該翻訳モデルにおいて、第１文章Ｔ１１が入力されてから第３文章Ｔ３１の少なくとも一部が訳出されるまでの時間を短縮することができる。

本発明は、上述の実施形態に限定されない。例えば、特徴量は、文節５ａ～５ｄ内の形態素に対応付けられた第１解析文章Ｔ１２の形態素のインデックス２ｐのうち最小値でなくてもよい。特徴量は、例えば、文節５ａ～５ｄのそれぞれに含まれる形態素に対応付けられた第１解析文章Ｔ１２の形態素のインデックス２ｐのうち最大値であってもよい。

この場合、導出部５０は、特徴量として抽出量７ａ～７ｄのそれぞれのうち、最大値を出力する。図４に示される例では、導出部５０は、抽出量７ａである（７，２）から最大値である「７」を文節５ａの特徴量８ａとして導出する。導出部５０は、文節５ｂ，５ｃ，５ｄについても同様の処理を行うことによって、文節５ｂの特徴量８ｂ、文節５ｃの特徴量８ｃ、及び文節５ｄの特徴量８ｄを導出する。この場合、文節５ｂの特徴量８ｂは「２」であり、文節５ｃの特徴量８ｃは「５」であり、文節５ｄの特徴量８ｄは「８」である。

以上のように導出部５０は、文節５ａ～５ｄのそれぞれの抽出量のうち最大値を特徴量とし、作成部６０は、文節５ａ～５ｄのそれぞれの特徴量が第１解析文章Ｔ１２の文頭から文末に並ぶ形態素２ａ～２ｉのインデックス２ｐの順序に対応するように、文節５ａ～５ｄを配列して第３文章Ｔ３１を作成してもよい。この変形例では、第１解析文章Ｔ１２（第１文章Ｔ１１）の文頭から文末に向かってインデックス２ｐは昇順に割り当てられているので、作成部６０は、特徴量８ａ～８ｄが昇順に並ぶように、文節５ａ～５ｄを配列して第３文章Ｔ３１を作成する。言い換えると、各文節の抽出量のうちの最も大きい値（インデックス２ｐ）を基準として文節が並び替えられる。この構成により、第１文章Ｔ１１の文頭から文末に向けて、対応付けられているすべての形態素が揃う順に文節が配列される。よって、作成された第２対訳コーパス８４（同時通訳用の対訳コーパス）は、第１文章Ｔ１１が文頭から逐次入力される場合、第２文章Ｔ２１の文節に対応する形態素がすべて揃った順に優先的に出力できるように翻訳モデルを学習させることができる。この翻訳モデルにおいては、文節に対応する第１文章Ｔ１１の形態素がすべて揃ってから当該文節が翻訳されるので、第１言語で表される第１文章Ｔ１１に対する第２言語での訳出の正確性を向上させることができる。

以下、別の実施形態を説明する。図７は、別の実施形態に係る文章作成装置の構成を示す図である。図７に示されるように、文章作成装置１Ａは、重み付け部７０をさらに備える点、及び導出部５０の特徴量導出処理において、文章作成装置１と主に相違する。

重み付け部７０は、重み付け処理として、第１解析文章Ｔ１２の形態素２ａ～２ｉに対して重みを設定する機能部である。重みとは、例えば、文章内に出現する各形態素の重要度を示す。重みが大きいほど、その形態素の重要度が高いことを示す。重みは、例えば０以上１以下の値である。重み付け部７０は、例えば、公知の重み付け手法を利用して重みを設定する重み付け処理を実行する。公知の重み付け手法とは、例えば、文書（文章）内の形態素の出現頻度、又は、文書（文章）内の形態素の逆文書頻度に基づく手法である。文書は複数の文章を含む。形態素の出現頻度とは、文書又は文章内のすべての単語の出現回数のうち、対象の形態素の出現回数が占める割合を表す。形態素の逆文書頻度とは、文書の集合の中のある形態素が含まれる文書の割合の逆数を表し、形態素が他の文書に多く出現していればいるほど小さい値となる。具体的な重み付けツールとして、例えば、ＴＦ－ＩＤＦ、及びＯｋａｐｉＢＭ２５が挙げられる。なお、重み付け手法として、ユーザ操作による重み付けを実行してもよい。

重み付け部７０は、解析部２０により形態素解析された第１解析文章Ｔ１２に対して重み付け処理を実行する。重み付け部７０は、例えば、第１解析文章Ｔ１２において、形態素２ｂ、形態素２ｄ、形態素２ｆ及び形態素２ｈに対して他の形態素に比べて大きい重みを設定する。重み付け部７０は、第１解析文章Ｔ１２及び形態素２ａ～２ｉの重みを導出部５０に出力する。

導出部５０は、上述の重み付け部７０による重み付け処理の結果を用いて、文節５ａ～５ｄのそれぞれの特徴量を導出する。導出部５０は、文節５ａ～５ｄのそれぞれに含まれる形態素に対応付けられた第１解析文章Ｔ１２の形態素のうち、重みが最も大きい形態素のインデックス２ｐを文節５ａ～５ｄのそれぞれの特徴量として導出する。例えば、導出部５０は、文節５ａに対応付けられた形態素（形態素２ｃ及び形態素２ｈ）のうち最も大きい重みが設定された形態素（重要度の高い形態素）である形態素２ｈに付与されたインデックス２ｐの「７」を文節５ａの特徴量として導出する。

導出部５０は、文節５ｂ，５ｃ，５ｄに対しても同様の処理を行うことによって、文節５ｂ，５ｃ，５ｄのそれぞれの特徴量を得る。文節５ｂの特徴量は「１」であり、文節５ｃの特徴量は「５」であり、文節５ｄの特徴量は「３」である。

なお、図６のフローチャートにおいて、重み付け部７０は、例えば、対応付け処理（ステップＳ４０）の後であって、かつ、特徴量導出処理（ステップＳ５０）の前において、重み付け処理を実行する。

なお、文章作成装置１は、形態素解析処理（ステップＳ２０）より後であって、特徴量導出処理（ステップＳ５０）の前であれば、重み付け処理（ステップＳ４５）をいつ実行してもよい。対応付け部４０は、検出文章Ｔ２３を重み付け部７０に出力せず、導出部５０に出力してもよい。

以上のように文章作成装置１Ａにおいても、文章作成装置１と同様の効果が奏される。さらに、文章作成装置１Ａにおいては、文節５ａ～５ｄのそれぞれに含まれる形態素に対応付けられた第１解析文章Ｔ１２の形態素のうち重みが最も高い形態素のインデックス２ｐが文節５ａ～５ｄのそれぞれの特徴量として導出される。そして、文節５ａ～５ｄのそれぞれの特徴量が第１解析文章Ｔ１２の文頭から文末に並ぶ形態素２ａ～２ｉのインデックス２ｐの順序に対応するように文節５ａ～５ｄが配列されることによって、第３文章Ｔ３１Ａが作成される。文章作成装置１では、第１解析文章Ｔ１２の文頭から文末に向かって重要度が高い形態素が現れた順に、当該形態素に対応付けられた検出文章Ｔ２３の文節が並び替えられる。作成された第２対訳コーパス８４（同時通訳用の対訳コーパス）は、逐次入力される第１文章Ｔ１１のうち、第１文章Ｔ１１の重要度が高い形態素から第３文章Ｔ３１Ａに訳出できるように翻訳モデルを学習させることができる。よって、当該翻訳モデルは、第１文章Ｔ１１の重要度の高い形態素を訳出した形態素を含む文節が出力されるまでの時間を短縮させることができる。

なお、導出部５０は、文節５ａ～５ｄのそれぞれに含まれる形態素に対応付けられた第１解析文章Ｔ１２の形態素のうち、重みが所定の閾値以上の第１解析文章Ｔ１２の形態素のインデックス２ｐを文節５ａ～５ｄのそれぞれに対する特徴量として導出してもよい。第１解析文章Ｔ１２のある文節において、重みが所定の閾値以上となる複数の形態素が存在する場合、導出部５０は、例えば、当該複数の形態素に付与されたインデックス２ｐのうち最小値又は最大値を特徴量として導出してもよい。

当該インデックス２ｐのうち最小値を特徴量とした場合、第２対訳コーパス８４（同時通訳用の対訳コーパス）は、第１文章Ｔ１１の重要度の高い形態素のうち、逐次入力される形態素を先に早く訳出できるように翻訳モデルを学習させることができる。当該インデックス２ｐのうち最大値を特徴量とした場合、第２対訳コーパス８４（同時通訳用の対訳コーパス）は、第１文章Ｔ１１の重要度の高い形態素のうち、逐次入力される第１文章Ｔ１１の形態素に対応する第２文章Ｔ２１の文節から順に優先的に出力できるように翻訳モデルを学習させることができる。

上述の別の実施形態において、重み付け部７０は、重み付け処理として、検出文章Ｔ２３の形態素３ａ～３ｋに対して重みを設定してもよい。重み付け部７０は、例えば、検出文章Ｔ２３において、形態素３ａ、形態素３ｃ、形態素３ｆ及び形態素３ｈに対して他の形態素に比べて大きい重みを設定する。

この場合、導出部５０は、文節５ａ～５ｄのそれぞれに含まれる重みが最も大きい形態素に対応付けられた第１解析文章Ｔ１２の形態素のインデックス２ｐを文節５ａ～５ｄのそれぞれの特徴量として導出する。導出部５０は、例えば、文節５ａ内の形態素３ａ及び形態素３ｂのうち、最も大きい重みが設定された形態素（重要度の高い形態素）である形態素３ａを抽出する。導出部５０は、形態素３ａに対応付けられた形態素２ｈに付与されたインデックス２ｐの「７」を文節５ａの特徴量として導出する。

導出部５０は、文節５ｂ，５ｃ，５ｄに対しても同様の処理を行うことによって、文節５ｂ，５ｃ，５ｄのそれぞれにおける特徴量を得る。文節５ｂの特徴量は「１」であり、文節５ｃの特徴量は「５」であり、文節５ｄの特徴量は「３」である。

文章作成装置１では、第１解析文章Ｔ１２の文頭から文末に向かって第２文章Ｔ２１の重要度が高い形態素に対応付けられた形態素が現れた順に、当該形態素に対応付けられた検出文章Ｔ２３の文節が並び替えられる。作成された第２対訳コーパス８４（同時通訳用の対訳コーパス）は、逐次入力される第１文章Ｔ１１のうち、第２文章Ｔ２１の重要度が高い形態素に対応付けられた第１文章Ｔ１１の形態素から第３文章Ｔ３１Ａに訳出できるように翻訳モデルを学習させることができる。よって、当該翻訳モデルは、第２文章Ｔ２１の重要度の高い形態素を含む文節を出力するまでの時間を短縮させることができる。

文章作成装置１，１Ａは、第１対訳コーパス８２及び第２対訳コーパス８４の少なくとも一方を備えていてもよい。

なお、上記実施形態の説明に用いられたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、及び割り振り（assigning）などがあるが、これらの機能に限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）又は送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

例えば、本開示の一実施形態における文章作成装置１，１Ａは、本開示の情報処理を行うコンピュータとして機能してもよい。図８は、本開示の一実施形態に係る文章作成装置１，１Ａのハードウェア構成の一例を示す図である。上述の文章作成装置１，１Ａは、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、及びバス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、及びユニットなどに読み替えることができる。文章作成装置１，１Ａのハードウェア構成は、図に示された各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

文章作成装置１，１Ａにおける各機能は、プロセッサ１００１及びメモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、及びレジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。例えば、上述の文章作成装置１における各機能は、プロセッサ１００１によって実現されてもよい。

プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、及びデータなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施形態において説明された動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、文章作成装置１，１Ａにおける各機能は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、及びＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、又はメインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施形態に係る情報処理を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリ（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、及び磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。第１対訳コーパス８２及び第２対訳コーパス８４は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバ、その他の適切な媒体であってもよい。

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、又は通信モジュールなどともいう。例えば、上述の取得部１０などは、通信装置１００４によって実現されてもよい。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、及びセンサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、及びＬＥＤランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

プロセッサ１００１及びメモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

文章作成装置１，１Ａは、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

本開示において説明された各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明された方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示された特定の順序に限定されない。

入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理されてもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本開示において説明された各態様／実施形態は単独で用いられてもよいし、組み合わせて用いられてもよいし、実行に伴って切り替えて用いられてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的な通知に限られず、暗黙的に（例えば、当該所定の情報の通知を行わないことによって）行われてもよい。

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明された実施形態に限定されないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施されることができる。したがって、本開示の記載は、例示説明を目的とし、本開示に対して何ら制限的な意味を有しない。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

ソフトウェア、命令、及び情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

本開示において説明された情報、及び信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、及びチップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本開示において説明された用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えられてもよい。

本開示において使用される「システム」及び「ネットワーク」という用語は、互換的に使用される。

本開示において説明された情報、及びパラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

本開示で使用される「判断（determining）」、及び「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up、search、inquiry）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、又は「みなす（considering）」などで読み替えられてもよい。

「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的に行われても、論理的に行われても、或いはこれらの組み合わせで実現されてもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用される場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

本開示において使用される「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において使用される「第１の」、及び「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

上記の各装置の構成における「部」は、「回路」、又は「デバイス」等に置き換えられてもよい。

本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示において、例えば、英語での「a」、「an」、及び「the」のように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、及び「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

１，１Ａ…文章作成装置、２ａ，２ｂ，２ｃ，２ｄ，２ｅ，２ｆ，２ｇ，２ｈ，２ｉ，３ａ，３ｂ，３ｃ，３ｄ，３ｅ，３ｆ，３ｇ，３ｈ，３ｉ，３ｊ，３ｋ…形態素、２ｐ…インデックス、５ａ，５ｂ，５ｃ，５ｄ…文節、８ａ，８ｂ，８ｃ，８ｄ…特徴量、１０…取得部、２０…解析部、３０…検出部、４０…対応付け部、５０…導出部、６０…作成部、７０…重み付け部、８２…第１対訳コーパス、８４…第２対訳コーパス、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…バス、Ｔ１１…第１文章、Ｔ２１…第２文章、Ｔ３１…第３文章。

Claims

第１言語の第１文章、及び前記第１文章の訳文である第２言語の第２文章を取得する取得部と、
前記第１文章及び前記第２文章のそれぞれを形態素解析する解析部と、
前記第２文章において形態素を有するすべての文節を検出する検出部と、
前記第１文章の形態素と前記第２文章の形態素とを各形態素の意味に基づきそれぞれ対応付ける対応付け部と、
前記第２文章の形態素に対応付けられた前記第１文章における前記第１文章の形態素の位置を示すインデックスに基づき、前記第２文章の各文節における特徴量を導出する導出部と、
前記第２文章の各文節の前記特徴量に基づき、前記第２文章の文節を配列して第３文章を作成する作成部と、
を備え、
前記導出部は、前記第２文章の文節内の形態素に対応付けられた前記第１文章の形態素のインデックスのうち最小値を前記第２文章の文節の前記特徴量とし、
前記作成部は、前記第２文章の各文節の前記特徴量が前記第１文章の文頭から文末に並ぶ形態素のインデックスの順序に対応するように前記第２文章の各文節を配列して前記第３文章を作成する、
文章作成装置。
第１言語の第１文章、及び前記第１文章の訳文である第２言語の第２文章を取得する取得部と、
前記第１文章及び前記第２文章のそれぞれを形態素解析する解析部と、
前記第２文章において形態素を有するすべての文節を検出する検出部と、
前記第１文章の形態素と前記第２文章の形態素とを各形態素の意味に基づきそれぞれ対応付ける対応付け部と、
前記第２文章の形態素に対応付けられた前記第１文章における前記第１文章の形態素の位置を示すインデックスに基づき、前記第２文章の各文節における特徴量を導出する導出部と、
前記第２文章の各文節の前記特徴量に基づき、前記第２文章の文節を配列して第３文章を作成する作成部と、
を備え、
前記導出部は、前記第２文章の文節内の形態素に対応付けられた前記第１文章の形態素のインデックスのうち最大値を前記第２文章の文節の前記特徴量とし、
前記作成部は、前記第２文章の各文節の前記特徴量が前記第１文章の文頭から文末に並ぶ形態素のインデックスの順序に対応するように前記第２文章の各文節を配列して前記第３文章を作成する、
文章作成装置。
第１言語の第１文章、及び前記第１文章の訳文である第２言語の第２文章を取得する取得部と、
前記第１文章及び前記第２文章のそれぞれを形態素解析する解析部と、
前記第２文章において形態素を有するすべての文節を検出する検出部と、
前記第１文章の形態素と前記第２文章の形態素とを各形態素の意味に基づきそれぞれ対応付ける対応付け部と、
前記第１文章の形態素に対して重みを設定する重み付け部と、
前記第２文章の形態素に対応付けられた前記第１文章における前記第１文章の形態素の位置を示すインデックスに基づき、前記第２文章の各文節における特徴量を導出する導出部と、
前記第２文章の各文節の前記特徴量に基づき、前記第２文章の文節を配列して第３文章を作成する作成部と、
を備え、
前記導出部は、前記第２文章の各文節内の形態素に対応付けられた前記第１文章の形態素のうち前記重みが最も高い前記第１文章の形態素のインデックスを前記第２文章の各文節の前記特徴量とし、
前記作成部は、前記第２文章の各文節の前記特徴量が前記第１文章の文頭から文末に並ぶ形態素のインデックスの順序に対応するように前記第２文章の各文節を配列して前記第３文章を作成する、
文章作成装置。
第１言語の第１文章、及び前記第１文章の訳文である第２言語の第２文章を取得する取得部と、
前記第１文章及び前記第２文章のそれぞれを形態素解析する解析部と、
前記第２文章において形態素を有するすべての文節を検出する検出部と、
前記第１文章の形態素と前記第２文章の形態素とを各形態素の意味に基づきそれぞれ対応付ける対応付け部と、
前記第２文章の文節内の形態素に対して重みを設定する重み付け部と、
前記第２文章の形態素に対応付けられた前記第１文章における前記第１文章の形態素の位置を示すインデックスに基づき、前記第２文章の各文節における特徴量を導出する導出部と、
前記第２文章の各文節の前記特徴量に基づき、前記第２文章の文節を配列して第３文章を作成する作成部と、
を備え、
前記導出部は、前記第２文章の各文節内の形態素のうち、最も高い重みが設定された形態素に対応付けられた前記第１文章の形態素のインデックスを前記第２文章の各文節の前記特徴量とし、
前記作成部は、前記第２文章の各文節の前記特徴量が前記第１文章の文頭から文末に並ぶ形態素のインデックスの順序に対応するように前記第２文章の各文節を配列して前記第３文章を作成する、
文章作成装置。
前記作成部は、前記第２文章の複数の文節における前記特徴量が同一の値であるとき、前記第２文章の文頭から文末に並ぶ文節の順序を保持するように当該複数の文節を配列して第３文章を作成する、請求項１～請求項４の何れか一項に記載の文章作成装置。