JP5289261B2 - 文章変換装置、方法及びプログラム - Google Patents

文章変換装置、方法及びプログラム Download PDF

Info

Publication number
JP5289261B2
JP5289261B2 JP2009227255A JP2009227255A JP5289261B2 JP 5289261 B2 JP5289261 B2 JP 5289261B2 JP 2009227255 A JP2009227255 A JP 2009227255A JP 2009227255 A JP2009227255 A JP 2009227255A JP 5289261 B2 JP5289261 B2 JP 5289261B2
Authority
JP
Japan
Prior art keywords
morpheme
sentence
conversion
law
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009227255A
Other languages
English (en)
Other versions
JP2011076375A (ja
Inventor
由紀恵 荻原
香里 谷尾
薫 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009227255A priority Critical patent/JP5289261B2/ja
Publication of JP2011076375A publication Critical patent/JP2011076375A/ja
Application granted granted Critical
Publication of JP5289261B2 publication Critical patent/JP5289261B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文章変換装置、方法及びプログラムに関する。
従来、インターネット上で公開される不特定多数の読者向けのWebコンテンツ等は、標準語を用いた文章により作成されている例が多い。一方、ブログやメール等に代表される、特定の相手や、趣向が近似したユーザ同士でのインターネット上でのやりとりの文章では、標準語を用いた文章だけではなく、様々な表記の文章が広く用いられている。この様々な表記の文章を、以下、標準語に対して現代語と呼ぶことにする。現代語には、言葉を使用する人間の属性(年代やステータス)によって、標準語を一部変換して使用するような言葉がある。例えば、若い女性(ギャル)が用いる独特の語彙「ギャル語」や、裕福な女性(セレブ)が用いるような、丁寧語をさらに丁寧にした表現である「セレブ語」等があげられる。そのような中、ひとつの現代語を作成するツールとして、品詞に対して一定の変換ルールを使用することで、品詞の表記バリエーションを自動的に生成する品詞バリエーション生成装置が開示されている(例えば、特許文献1)。
特開2008−134842号公報
特許文献1に記載の品詞バリエーション生成装置は、品詞に着目して、品詞の表記バリエーションを自動的に生成するものであった。一方、現代語には、品詞の表記バリエーション以外の言葉も存在する。そして、現代語を用いた様々な表記の文章を分析すると、その特徴として、ユーザ(言葉の使用者)が固有に持つ特定の属性に対応したパターン化されたバリエーションが存在することが分かった。
本発明は、ユーザが固有に持つ特定の属性に対応したパターン化されたバリエーションを用いて、文章を変換する文章変換装置、方法及びプログラムを提供することを目的とする。
本発明者らは、ユーザが固有に持つ特定の属性に対応したパターン化されたバリエーションを見つけることで、標準語の「書き言葉」から現代語の「話言葉」に変換するいくつかの法則を見出し、本発明を完成するに至った。
(1) 書き言葉を話言葉に変換する文章変換装置であって、
処理対象の文章を受け付ける文章受付部と、
前記文章受付部において受け付けた前記文章を複数の形態素に分割する形態素解析部と、
前記形態素解析部により分割された複数の前記形態素の各々に対して所定の手段を適用して、前記文章を変換する法則適用部と、
前記法則適用部により変換された変換後文章を出力する変換後文章出力部と、
を備え、
前記所定の手段は、書き言葉と話言葉を比較して求めた特徴的な差異部分にあたる形態素の語を文法に拘束されていない語に変換する手段であって、
文末表現の前記形態素に対して適用する文末表現変換手段と、
左連接が動詞連用形の前記形態素に対して適用する左連接動詞連用変換手段と、
左連接が未然形の前記形態素に対して適用する左連接未然形変換手段と、
格助詞連語の前記形態素に対して適用する格助詞連語変換手段と、
を少なくともひとつ有し、
前記法則適用部は、複数の前記形態素から一の前記形態素を処理対象にして前記一の形態素の左連接の形態素と、右連接の形態素及び右右連接の形態素の各々を用いて解析し、解析の結果、前記所定の手段を適用できる場合には、前記一の形態素を含めた変換前語を特定して前記所定の手段を適用することにより、前記一の形態素を変換する処理を、複数の前記形態素の全てについて繰り返す、
文章変換装置。
本発明のこのような構成によれば、処理対象の書き言葉の文章を、所定の変換手段を適用して、話言葉の文章に自動的に変換して出力することができる。よって、例えば、書き言葉で書かれたブログを検索する際に、検索キーワード等に対して本機能を用いることで、書き言葉で書かれたブログをヒットさせやすくすることができる。また、特に書き言葉から話言葉に関する変換では特徴となる文末表現、左連接動詞連用、左連接未然形、格助詞連語に関する所定の手段(法則)を適用することができる。話言葉の特徴として、文末や動詞の連用形の末尾の表現を微妙に変換させることが多いからである。
(2) 前記文法に拘束されていない語として、助詞、副詞及び形容詞の小文字化、助詞に半母音を追加、形式名詞の略式化のいずれか1つ以上を含む
ことを特徴とする(1)に記載の文章変換装置。
本発明のこのような構成によれば、変換対象になる形態素の一つ以上の左連接及び一つ以上の右連接の少なくともいずれかといった、対象の形態素の前後の形態素との関連性を考慮して所定の手段を適用することができる。
(3) カテゴリに対応付けて前記話言葉に関する法則を記憶する法則記憶部と、前記法則記憶部に記憶された前記カテゴリの選択を受け付ける法則選択部と、を備え、
前記法則適用部は、前記法則選択部により選択された前記カテゴリに対応づけられた前前記法則を前記所定の手段として前記法則記憶部から取得して、前記文章を変換する、
(1)又は(2)に記載の文章変換装置。
本発明のこのような構成によれば、カテゴリの選択を受け付けることで、カテゴリに対応付けて法則記憶部に記憶された話言葉に関する所定の手段(変換手段)を適用して、文章を変換することができる。よって、本発明の装置は、複数のカテゴリから所望のカテゴリを選択することによって、所望の法則を適用した変換後の文章を出力させることができる。
(4) 前記カテゴリは、年代及び社会的地位のいずれかの相違による前記話言葉に関する法則を対応付けたものである、
(3)に記載の文章変換装置。
本発明のこのような構成によれば、カテゴリは、年代及び社会的地位のいずれかの相違による話言葉に関する法則を含むので、例えば、年代の相違による話言葉の法則である、若い女性の中で使用されている言葉(ギャル語)や、社会的地位の相違による話言葉の法則である、上流階級ぶった女性の人々の中で使用されている言葉(セレブ語)等に、文章を変換することができる。
(5) 前記所定の手段は、
単語の前記形態素に対して適用する単語単純置換手段と、
固有の前記形態素に対して適用する固有変換手段と、
をさらに有する、
(1)から(4)までのいずれかに記載の文章変換装置。
本発明のこのような構成によれば、話言葉に関する変換として、単語の単純な置換及び固有の変換をサポートすることができる。
(6) 書き言葉を話言葉に変換する文章変換方法であって、
コンピュータが、
処理対象の文章を受け付ける文章受付ステップと、
前記文章受付ステップにおいて受け付けた前記文章を複数の形態素に分割する形態素解析ステップと、
前記形態素解析ステップにより分割された複数の前記形態素の各々に対して所定の手段を適用して、前記文章を変換する法則適用ステップと、
前記法則適用ステップにより変換された変換後文章を出力する変換後文章出力ステップと、
を実行し、
前記所定の手段は、書き言葉と話言葉を比較して求めた特徴的な差異部分にあたる形態素の語を文法に拘束されていない語に変換する手段であって、
文末表現の前記形態素に対して適用する文末表現変換手段と、
左連接が動詞連用形の前記形態素に対して適用する左連接動詞連用変換手段と、
左連接が未然形の前記形態素に対して適用する左連接未然形変換手段と、
格助詞連語の前記形態素に対して適用する格助詞連語変換手段と、
を少なくともひとつ有し、
前記法則適用ステップは、複数の前記形態素から一の前記形態素を処理対象にして前記一の形態素の左連接の形態素と、右連接の形態素及び右右連接の形態素の各々を用いて解析し、解析の結果、前記所定の手段を適用できる場合には、前記一の形態素を含めた変換前語を特定して前記所定の手段を適用することにより、前記一の形態素を変換する処理を、複数の前記形態素の全てについて繰り返す、
文章変換方法。
(7) 書き言葉を話言葉に変換する文章変換プログラムであって、
コンピュータに、
処理対象の文章を受け付ける文章受付ステップと、
前記文章受付ステップにおいて受け付けた前記文章を複数の形態素に分割する形態素解析ステップと、
前記形態素解析ステップにより分割された複数の前記形態素の各々に対して所定の手段を適用して、前記文章を変換する法則適用ステップと、
前記法則適用ステップにより変換された変換後文章を出力する変換後文章出力ステップと、
を実行させ、
前記所定の手段は、書き言葉と話言葉を比較して求めた特徴的な差異部分にあたる形態素の語を文法に拘束されていない語に変換する手段であって、
文末表現の前記形態素に対して適用する文末表現変換手段と、
左連接が動詞連用形の前記形態素に対して適用する左連接動詞連用変換手段と、
左連接が未然形の前記形態素に対して適用する左連接未然形変換手段と、
格助詞連語の前記形態素に対して適用する格助詞連語変換手段と、
を少なくともひとつ有し、
前記法則適用ステップは、複数の前記形態素から一の前記形態素を処理対象にして前記一の形態素の左連接の形態素、右連接の形態素及び右右連接の形態素の各々を用いて解析し、解析の結果、前記所定の手段を適用できる場合には、前記一の形態素を含めた変換前語を特定して前記所定の手段を適用することにより、前記一の形態素を変換する処理を、複数の前記形態素の全てについて繰り返す、
文章変換プログラム。
本発明によれば、処理対象の文章を、ユーザが固有に持つ特定の属性に対応した書き言葉から話言葉に関する所定の手段を適用して、自動的に変換して出力することができるので、標準語で書かれた文章を入力するだけで、簡易に話言葉の文章に変換して出力することができる。
本実施形態に係る文章変換装置の機能構成を示す図である。 本実施形態に係る文章変換装置のメイン処理のフローチャートである。 本実施形態に係る形態素分析結果フィールドの例を示す図である。 本実施形態に係る法則記憶部の例を示す図である。 本実施形態に係る変換処理のフローチャートである。 本実施形態に係る文章の変換例を示す図である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
[文章変換装置1の機能構成]
図1は、本実施形態に係る文章変換装置1の機能構成を示す図である。
文章変換装置1は、Webサーバ等の他の装置(図示せず)に記憶されたWebページや、ユーザ端末(図示せず)により指定された書き言葉の文章を、通信ネットワーク(図示せず)を介して受信して、話言葉の文章に変換して出力する装置である。文章変換装置1は、例えば、サーバであってよい。文章変換装置1は、入力部3と、出力部5と、制御部10と、記憶部20とを備える。
入力部3は、例えば、通信ネットワークとの接続のためのネットワークアダプタである。入力部3は、通信ネットワークを介して文章を入力する装置の他、文章変換装置1にユーザが直接入力するためのキーボード、マウス等であってもよい。
出力部5は、例えば、入力部3と同様に、ネットワークアダプタである。出力部5は、通信ネットワークを介して、変換後の文章を出力する装置の他、文章変換装置1に直接出力するための液晶ディスプレイ、プラズマディスプレイ等のディスプレイやプリンタであってもよい。
制御部10は、文章受付部11と、法則選択部12と、形態素解析部13と、法則適用部14と、変換後文章出力部15とを備える。
文章受付部11は、書き言葉で表された文章を、入力部3を介して受け付ける制御部である。文章とは、複数の文から構成された、あるまとまった思想を表したものをいい、ここでは、例えば、Webページに表示されたテキストや、検索対象及び変換対象として入力されたテキスト等をいう。また、書き言葉(標準語)とは、一般に、新聞記事等で用いられる公用語をいうが、ここでは、その他一般的に使用されている言葉をいう。他方、標準語に相対する言葉である話言葉(現代語)とは、例えば、年代別話言葉や、ステータス(社会的地位)別話言葉等をいい、書き言葉とは異なるカテゴリの言葉をいう。話言葉は、年代やステータスに代表されるユーザ固有の属性によって、書き言葉が変換された言葉である。カテゴリの異なる言葉として、具体的には、年代別話言葉の一例である若い女性(ギャル)が用いる独特の語彙や表現である「ギャル語」や、ステータス別話言葉の一例である一流の女性(セレブ)が用いる丁寧語をさらに丁寧にした表現である「セレブ語」がある。
法則選択部12は、後述する記憶部20の法則記憶部22に記憶された複数のカテゴリの法則から、文章を変換及び変換したい所定の法則を選択する制御部である。カテゴリは、ユーザ固有の属性に関連するものであって、特徴のある言葉の種類ごとに存在する。
形態素解析部13は、文章受付部11で受け付けた文章を、複数の形態素に分割する制御部である。形態素とは、文章の要素のうち、意味を持つ最小の単位をいう。形態素は、単語を含む概念である。また、形態素解析部13は、分割された形態素の各々を、形態素解析結果として記憶部20に記憶する。
法則適用部14は、法則選択部12にて選択された法則にしたがって、形態素解析部13で分割された複数の形態素の各々を変換する制御部である。法則適用部14は、その法則の種類にしたがって、単語単純置換手段14Aと、文末表現変換手段14Bと、左連接動詞連用変換手段14Cと、左連接未然形変換手段14Dと、格助詞連語変換手段14Eと、固有変換手段14Fとを有する。
変換後文章出力部15は、法則適用部14によって法則を適用して変換した変換後の形態素を、元の文章と同様の並び順に並べて、並べた変換後文章を出力部5に出力する制御部である。
記憶部20は、プログラム領域21と、法則記憶部22と、一時保存領域23とを備える。
プログラム領域21は、文章変換装置1の各機能を実現するためのプログラムを記憶する記憶領域である。
法則記憶部22は、複数のカテゴリに分けられた法則を記憶する記憶領域である。カテゴリの種類として、以下の説明においては、年代別話言葉の一例である「ギャル語」と、ステータス別話言葉の一例である「セレブ語」とを取り上げて説明する。
一時保存領域23は、形態素解析部13により文章を形態素に分割してから、法則適用部14により分割した形態素に法則を適用して変換後文章を作成する間の、一時的なデータを保存する領域である。
本実施形態の文章変換装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)、光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線、無線LAN装置を適宜備えており、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、文章変換装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本実施形態に係る各種機能を実現している。
[文章変換装置1の処理フロー]
次に、文章変換装置1の処理について説明する。図2は、本実施形態に係る文章変換装置1のメイン処理のフローチャートである。図3は、本実施形態に係る形態素分析結果フィールド30の例を示す図である。図4は、本実施形態に係る法則記憶部22の例を示す図である。図5は、本実施形態に係る変換処理のフローチャートである。
まず、図2のS1:文章受付部11は、処理対象の文章を、入力部3を介して受け付ける。
S2:法則選択部12は、法則記憶部22に記憶されたカテゴリの1つである所定の法則の選択を、入力部3を介して受け付ける。所定の法則の選択とは、カテゴリの選択であり、例えば、「ギャル語」、「セレブ語」等の選択をいう。
S3:形態素解析部13は、形態素解析処理を行う。具体的には、形態素解析部13は、処理対象の文章を複数の形態素に分割する。分割した形態素は、各種の情報と共に一時保存領域23に形態素分析結果フィールド30として記憶される。
ここで、形態素分析結果フィールド30について、図3に基づき説明する。形態素分析結果フィールド30は、表記31、読み32、原形33、品詞34、品詞詳細35及び活用36の各項目から構成される。各項目には、形態素の各情報を格納する。形態素分析結果フィールド30は、配列の構成をしている。例えば、「A」という形態素の形態素分析結果フィールド30の品詞34は、A[3]と表すことができる。
そして、例えば、「私は百円ショップが好きなのでよく行きます。」という文章を形態素解析部13によって形態素解析すると、「私/は/百/円/ショップ/が/好き/な/の/で/よく/行き/ます/。」(“/”は、区切り記号)になる。ここで、この文章は、形態素分析結果フィールド30では、図3に例として示しているように、1つの形態素を1レコードとして、一時保存領域23に記憶される。
図2に戻り、S4:法則適用部14は、複数の形態素の中から一の形態素を抽出する。
S5:法則適用部14は、抽出した一の形態素を現在地として、現在地の左連接の形態素、右連接の形態素及び右右連接の形態素を取得する。例えば、図3に示すように「行き」という形態素を現在地とすると、左連接の形態素は「よく」、右連接の形態素は「ます」、右右連接の形態素は「。」(文末)になる。
S6:法則適用部14は、形態素分析結果フィールド30を用いて、一の形態素が、法則記憶部22に記憶された法則の変換条件に合致するか否かを判断する。変換条件に合致する場合(S6:YES)には、制御部10は、処理をS7に移す。他方、変換条件に合致しない場合(S6:NO)には、制御部10は、処理をS8に移す。
ここで、法則記憶部22について説明する。図4に示す法則記憶部22は、カテゴリ22aと、分類22bと、文法22cと、変換前語22dと、変換後語22eとを有する。カテゴリ22aには、例えば、「ギャル語」や「セレブ語」といったカテゴリの言葉を格納する。分類22bには、どの変換を用いるかの分類を格納する。分類22bに格納される分類は、「単語単純置換」、「文末表現変換」、「左連接動詞連用変換」、「左連接未然形変換」、「格助詞連語変換」及び「固有変換」に大別される。この分類は、複数のカテゴリの話言葉を分析した結果発見した傾向をまとめたものである。文法22cには、現在地の文法を中心に、必要に応じて左連接、右連接及び右右連接の形態素の文法を格納する。変換前語22dには、変換前の語を格納する。変換後語22eには、変換後の語を格納する。
分類22bでの分類について、もう少し詳しく説明する。「単語単純置換」とは、単語Aから単語Bへ置き換えるものをいい、例えば、助詞、副詞及び形容詞の小文字化、助詞に半母音を追加、カタカナ化、ローマ字化、形式名詞の略式化、単語単位での置き換え等をいう。助詞、副詞及び形容詞の小文字化は、例えば、「ギャル語」で格助詞「へ」を「ぇ」に変換することをいう。助詞に半母音を追加は、例えば、「ギャル語」で格助詞「でも」を「でもぉ」に変換することをいう。形式名詞の略式化は、例えば、「ギャル語」で形式名詞「の」を「ン」に変換することをいう。これは、「私のです」という文章を「私ンです」に変換するものである。単語単位の置き換えは、例えば、名詞「わたし」を、「ギャル語」では「アタシ」に変換し、「セレブ語」では「わたくし」に変換することをいう。上述した「単語単純置換」は、単語単純置換手段14Aが変換処理を行う。
「文末表現変換」とは、文末の表現の変換をいう。例えば、「〜します。」を、「ギャル語」では「〜しますぅ」(+ハート記号)に変換し、「セレブ語」では「〜しますの。」に変換する。この「文末表現変換」は、文末表現変換手段14Bが変換処理を行う。
「左連接動詞連用変換」とは、現在地の左連接が動詞の連用形であるものの変換をいう。例えば、「〜(動詞連用形)ている」を、「ギャル語」では「〜ているョ」に変換し、「セレブ語」では「〜ております」に変換する。この「左連接動詞連用変換」は、左連接動詞連用変換手段14Cが変換処理を行う。
「左連接未然形変換」とは、現在地の左連接が未然形であるものの変換をいう。例えば、「〜(未然形)ず」を、「ギャル語」では「〜ずにぃ」に変換し、「セレブ語」では「〜ずに」に変換する。この「左連接未然形変換」は、左連接未然形変換手段14Dが変換処理を行う。
「格助詞連語変換」とは、例えば、引用を表す言葉の変換をいう。例えば、「〜という」を、「ギャル語」では「〜ってぇ」に変換し、「セレブ語」では、「〜と申します」に変換する。引用以外には、例えば、「〜において」、「〜によって」、「〜により」又は「〜をもって」等の言葉が変換対象である。この「格助詞連語変換」は、格助詞連語変換手段14Eが変換処理を行う。
「固有変換」とは、上述したいずれの変換にも該当しない、「ギャル語」又は「セレブ語」の固有の変換をいう。例えば、「〜たほか」を、「ギャル語」では「〜たしー」に変換する。また、例えば、「〜で」を、「セレブ語」では「〜でございまして」に変換する。この「固有変換」は、固有変換手段14Fが変換処理を行う。
なお、法則記憶部22として、上述及び図4に示したものは、あくまで一例であって、各カテゴリ別に、その他に各カテゴリの話言葉を分析して見出した多数の言葉の変換法則が格納されている。
図2に戻り、S7:法則適用部14は、変換処理を行う。ここで、変換処理について、図5を用いて説明する。
図5のS21:法則適用部14は、変換条件が所定の単語に合致するものであるか否かを判断する。所定の単語に合致するものである場合(S21:YES)には、法則適用部14は、処理をS27に移す。他方、所定の単語に合致するものではない場合(S21:NO)には、法則適用部14は、処理をS22に移す。
S22:法則適用部14は、変換条件が文末表現によるものであるか否かを判断する。文末表現によるものである場合(S22:YES)には、法則適用部14は、処理をS27に移す。他方、文末表現によるものではない場合(S22:NO)には、法則適用部14は、処理をS23に移す。
S23:法則適用部14は、変換条件が左連接の動詞連用によるものであるか否かを判断する。左連接の動詞連用によるものである場合(S23:YES)には、法則適用部14は、処理をS27に移す。他方、左連接の動詞連用によるものではない場合(S23:NO)には、法則適用部14は、処理をS24に移す。
S24:法則適用部14は、変換条件が左連接の未然形によるものであるか否かを判断する。左連接の未然形によるものである場合(S24:YES)には、法則適用部14は、処理をS27に移す。他方、左連接の未然形によるものではない場合(S24:NO)には、法則適用部14は、処理をS25に移す。
S25:法則適用部14は、変換条件が格助詞連語によるものであるか否かを判断する。格助詞連語によるものである場合(S25:YES)には、法則適用部14は、処理をS27に移す。他方、格助詞連語によるものではない場合(S25:NO)には、法則適用部14は、処理をS26に移す。
S26:法則適用部14は、変換条件が固有のものに合致するものであるか否かを判断する。固有のものに合致するものである場合(S26:YES)には、法則適用部14は、処理をS27に移す。他方、固有のものに合致するものではない場合(S26:NO)には、法則適用部14は、何も処理をせずに本処理を終了する。
S27:法則適用部14の各部である単語単純置換手段14Aから固有変換手段14Fは、上述した変換条件に合致した法則記憶部22の法則に基づいて、一の形態素を変換し、本処理を終了する。
このように、文章変換装置1は、特に話言葉に関する変換で特徴になる文末表現、左連接動詞連用形、左連接未然形、格助詞連語に関する所定の手段を適用し、単語の単純な置換及び固有の変換をサポートすることができる。そして、文章変換装置1は、変換対象になる形態素の左連接、右連接及び右右連接といった、対象の形態素の前後の形態素との関連性を考慮して所定の手段を適用することができる。
なお、変換処理を行う順番は、図5に示す順番に限定しない。どの変換条件から開始するのかは、任意である。ただし、文末表現変換と、左連接動詞連用形変換とは、文末表現についての変換条件を判断した後、文末表現が対象外である場合に、左連接動詞連用形についての変換条件を判断するのが、処理の効率上望ましい。
また、文章変換装置1は、変換対象になる形態素の左連接、右連接及び右右連接の形態素を解析したが、変換対象になる形態素の一つ以上の左連接及び一つ以上の右連接の少なくともいずれかの形態素を解析するものであってよい。
図2に戻り、S8:法則適用部14は、処理対象の文章から分割された複数の形態素の全てについて処理を行ったか否かを判断する。法則適用部14は、一の形態素を文章の先頭から順番に1つずつを抽出するようにして、文章の文末に達したか否かによって、複数の形態素の全てについて処理を行ったか否かを判断してもよい。複数の形態素の全てについて処理を行った場合(S8:YES)には、法則適用部14は、処理をS9に移す。他方、複数の形態素の全てについて処理を行っていない場合(S8:NO)には、法則適用部14は、処理をS4に移し、残りの形態素についても同様の処理を繰り返す。
S9:変換後文章出力部15は、S7の処理により変換された形態素を結合して変換後の文章を作成して、出力部5に出力する。その後、制御部10は、本処理を終了する。
[具体的な文章の変換例]
次に、具体的な変換例について説明する。図6は、本実施形態に係る文章の変換例を示す図である。
図6(1)に示すモニタ50は、文章変換装置1に対して通信ネットワークを介して接続された端末の表示部である。モニタ50には、Webページであるページ51が表示される。ページ51には、入力フィールド52と、ボタン53,54とが配置されている。入力フィールド52は、変換を希望する文章を、ユーザが入力する領域である。
図6(1)に示す例では、ユーザは、入力フィールド52に「私は百円ショップが好きなのでよく行きます。」という文章を入力している。そして、ユーザが「ギャル語変換」と書かれたボタン53又は「セレブ語変換」と書かれたボタン54を選択することで、文章及びカテゴリの選択情報が端末から文章変換装置1に対して送信される。
図6の(2)に示す図は、「ギャル語変換」のボタン53を選択後のモニタ50である。モニタ50には、「ギャル語」を表示するページ60が表示される。ページ60に配置された結果フィールド61には、図6(1)で入力フィールド52に入力した文章を「ギャル語」に変換した変換後の文章が表示される。図6(2)への変換では、図4に示す法則記憶部22のルール41〜43が適用されている。
図6の(3)に示す図は、「セレブ語変換」のボタン54を選択後のモニタ50である。モニタ50には、「セレブ語」を表示するページ70が表示され、そこに配置された結果フィールド71には、図6(1)で入力フィールド52に入力した文章を「セレブ語」に変換した変換後の文章が表示される。図6(3)への変換では、図4に示す法則記憶部22のルール45が適用されている。
このように、図6(2)で示した「ギャル語」への変換及び図6(3)で示した「セレブ語」への変換のいずれの場合も、変換したい処理対象の文章を入力して、カテゴリを選択するためのボタンをユーザが押下するといった簡単な操作だけで、制御部10が法則記憶部22に記憶された変換条件に合致した形態素を変換後語に変換して、自動的に文章を変換して出力することができる。したがって、本装置に標準語で書かれた文章を入力するだけで、簡易に話言葉の文章に変換させてモニタ50に出力することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 文章変換装置
3 入力部
5 出力部
10 制御部
11 文章受付部
12 法則選択部
13 形態素解析部
14 法則適用部
14A 単語単純置換手段
14B 文末表現変換手段
14C 左連接動詞連用変換手段
14D 左連接未然形変換手段
14E 格助詞連語変換手段
14F 固有変換手段
15 変換後文章出力部
20 記憶部
21 プログラム領域
22 法則記憶部
23 一時保存領域
30 形態素分析結果フィールド
50 モニタ
51,60,70 ページ
52 入力フィールド
61,71 結果フィールド

Claims (7)

  1. 書き言葉を話言葉に変換する文章変換装置であって、
    処理対象の文章を受け付ける文章受付部と、
    前記文章受付部において受け付けた前記文章を複数の形態素に分割する形態素解析部と、
    前記形態素解析部により分割された複数の前記形態素の各々に対して所定の手段を適用して、前記文章を変換する法則適用部と、
    前記法則適用部により変換された変換後文章を出力する変換後文章出力部と、
    を備え、
    前記所定の手段は、書き言葉と話言葉を比較して求めた特徴的な差異部分にあたる形態素の語を文法に拘束されていない語に変換する手段であって、
    文末表現の前記形態素に対して適用する文末表現変換手段と、
    左連接が動詞連用形の前記形態素に対して適用する左連接動詞連用変換手段と、
    左連接が未然形の前記形態素に対して適用する左連接未然形変換手段と、
    格助詞連語の前記形態素に対して適用する格助詞連語変換手段と、
    を少なくともひとつ有し、
    前記法則適用部は、複数の前記形態素から一の前記形態素を処理対象にして前記一の形態素の左連接の形態素と、右連接の形態素及び右右連接の形態素の各々を用いて解析し、解析の結果、前記所定の手段を適用できる場合には、前記一の形態素を含めた変換前語を特定して前記所定の手段を適用することにより、前記一の形態素を変換する処理を、複数の前記形態素の全てについて繰り返す、
    文章変換装置。
  2. 前記文法に拘束されていない語として、助詞、副詞及び形容詞の小文字化、助詞に半母音を追加、形式名詞の略式化のいずれか1つ以上を含む
    ことを特徴とする請求項1に記載の文章変換装置。
  3. カテゴリに対応付けて前記話言葉に関する法則を記憶する法則記憶部と、
    前記法則記憶部に記憶された前記カテゴリの選択を受け付ける法則選択部と、
    を備え、
    前記法則適用部は、前記法則選択部により選択された前記カテゴリに対応づけられた前記法則を前記所定の手段として前記法則記憶部から取得して、前記文章を変換する、
    請求項1又は請求項2に記載の文章変換装置。
  4. 前記カテゴリは、年代及び社会的地位のいずれかの相違による前記話言葉に関する法則を対応付けたものである、
    請求項3に記載の文章変換装置。
  5. 前記所定の手段は、
    単語の前記形態素に対して適用する単語単純置換手段と、
    固有の前記形態素に対して適用する固有変換手段と、
    をさらに有する、
    請求項1から請求項4までのいずれかに記載の文章変換装置。
  6. 書き言葉を話言葉に変換する文章変換方法であって、
    コンピュータが、
    処理対象の文章を受け付ける文章受付ステップと、
    前記文章受付ステップにおいて受け付けた前記文章を複数の形態素に分割する形態素解析ステップと、
    前記形態素解析ステップにより分割された複数の前記形態素の各々に対して所定の手段を適用して、前記文章を変換する法則適用ステップと、
    前記法則適用ステップにより変換された変換後文章を出力する変換後文章出力ステップと、
    を実行し、
    前記所定の手段は、書き言葉と話言葉を比較して求めた特徴的な差異部分にあたる形態素の語を文法に拘束されていない語に変換する手段であって、
    文末表現の前記形態素に対して適用する文末表現変換手段と、
    左連接が動詞連用形の前記形態素に対して適用する左連接動詞連用変換手段と、
    左連接が未然形の前記形態素に対して適用する左連接未然形変換手段と、
    格助詞連語の前記形態素に対して適用する格助詞連語変換手段と、
    を少なくともひとつ有し、
    前記法則適用ステップは、複数の前記形態素から一の前記形態素を処理対象にして前記一の形態素の左連接の形態素と、右連接の形態素及び右右連接の形態素の各々を用いて解析し、解析の結果、前記所定の手段を適用できる場合には、前記一の形態素を含めた変換前語を特定して前記所定の手段を適用することにより、前記一の形態素を変換する処理を、複数の前記形態素の全てについて繰り返す、
    文章変換方法。
  7. 書き言葉を話言葉に変換する文章変換プログラムであって、
    コンピュータに、
    処理対象の文章を受け付ける文章受付ステップと、
    前記文章受付ステップにおいて受け付けた前記文章を複数の形態素に分割する形態素解析ステップと、
    前記形態素解析ステップにより分割された複数の前記形態素の各々に対して所定の手段を適用して、前記文章を変換する法則適用ステップと、
    前記法則適用ステップにより変換された変換後文章を出力する変換後文章出力ステップと、
    を実行させ、
    前記所定の手段は、書き言葉と話言葉を比較して求めた特徴的な差異部分にあたる形態素の語を文法に拘束されていない語に変換する手段であって、
    文末表現の前記形態素に対して適用する文末表現変換手段と、
    左連接が動詞連用形の前記形態素に対して適用する左連接動詞連用変換手段と、
    左連接が未然形の前記形態素に対して適用する左連接未然形変換手段と、
    格助詞連語の前記形態素に対して適用する格助詞連語変換手段と、
    を少なくともひとつ有し、
    前記法則適用ステップは、複数の前記形態素から一の前記形態素を処理対象にして前記一の形態素の左連接の形態素、右連接の形態素及び右右連接の形態素の各々を用いて解析し、解析の結果、前記所定の手段を適用できる場合には、前記一の形態素を含めた変換前語を特定して前記所定の手段を適用することにより、前記一の形態素を変換する処理を、複数の前記形態素の全てについて繰り返す、
    文章変換プログラム。
JP2009227255A 2009-09-30 2009-09-30 文章変換装置、方法及びプログラム Active JP5289261B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009227255A JP5289261B2 (ja) 2009-09-30 2009-09-30 文章変換装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009227255A JP5289261B2 (ja) 2009-09-30 2009-09-30 文章変換装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011076375A JP2011076375A (ja) 2011-04-14
JP5289261B2 true JP5289261B2 (ja) 2013-09-11

Family

ID=44020290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009227255A Active JP5289261B2 (ja) 2009-09-30 2009-09-30 文章変換装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5289261B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5722375B2 (ja) * 2013-03-26 2015-05-20 日本電信電話株式会社 文末表現変換装置、方法、及びプログラム
CN109582971B (zh) * 2018-12-20 2022-11-25 广东小天才科技有限公司 一种基于句法分析的批改方法及批改系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250907A (ja) * 1999-02-26 2000-09-14 Fuji Xerox Co Ltd 文書処理装置および記録媒体
JP2006287676A (ja) * 2005-04-01 2006-10-19 Dainippon Printing Co Ltd データ放送の画面に字幕を表示させる方法、データ放送番組、データ放送番組プログラム、字幕配信システム。

Also Published As

Publication number Publication date
JP2011076375A (ja) 2011-04-14

Similar Documents

Publication Publication Date Title
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP2015201169A (ja) 多様な意味カテゴリに基づいた翻訳結果提供方法およびシステム
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
JP5315368B2 (ja) 文書処理装置
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
US20190179811A1 (en) Generation of requests to a processing system
JP2014232505A (ja) 項目間関連生成支援装置
JP5289261B2 (ja) 文章変換装置、方法及びプログラム
JP2008276543A (ja) 対話処理装置、応答文生成方法、及び応答文生成処理プログラム
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
US9009023B2 (en) Computer-readable medium having sentence dividing program stored thereon, sentence dividing apparatus, and sentence dividing method
JP2009265736A (ja) 電子機器、その制御方法およびコンピュータプログラム
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
JP2019053262A (ja) 学習システム
JP5242722B2 (ja) 代表文抽出装置およびプログラム
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP2014199476A (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP6996190B2 (ja) 複合語生成装置、プログラム及び複合語生成方法
JP2011191752A (ja) 音声認識用文法作成支援プログラム
JP3937118B2 (ja) 要約作成装置及び要約作成方法
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム
Sameera et al. SinLingua: Python Library for Sinhala Data Processing
JP6934621B2 (ja) 方法、装置、及びプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120920

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130219

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130604

R150 Certificate of patent or registration of utility model

Ref document number: 5289261

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350