JP6161656B2 - 言語表現書き換え装置、方法、及びプログラム - Google Patents
言語表現書き換え装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6161656B2 JP6161656B2 JP2015104613A JP2015104613A JP6161656B2 JP 6161656 B2 JP6161656 B2 JP 6161656B2 JP 2015104613 A JP2015104613 A JP 2015104613A JP 2015104613 A JP2015104613 A JP 2015104613A JP 6161656 B2 JP6161656 B2 JP 6161656B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- rewriting
- expression
- processing
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本実施形態に係る言語表現書き換え装置10は、CPUと、RAMと、後述する言語表現書き換え処理ルーチンを実行するための言語表現書き換えプログラムや各種データを記憶したROMとを含むコンピュータで構成することができる。言語表現書き換え装置10は、機能的には、図1に示すように、設定部11と、基本解析部12と、書き換え処理部13とを含む構成で表される。
(a)文体、(b)文字種、(c)分かち書き、(d)文構造、(e)述部機能表現・キャラ語尾、(f)活用形、(g)言いよどみ、(h)人称代名詞、(i)方言・特殊語彙、(j)音素置換、(k)弁別的無意味表現、(l)記号類
(b)文字種変換の設定値(0=無変換、1=ひらがな化)
(c)分かち書き変換の設定値(0=無変換、1=読点区切り、2=空白区切り)
(d)文構造変換用のキャラクタ別接続表現リスト26(詳細は後述)のファイル名(ファイル名を指定しない場合は、無変換とみなす)
(e)述部機能表現・キャラ語尾変換用のキャラクタ別機能表現リスト27(詳細は後述)のファイル名(ファイル名を指定しない場合は、無変換とみなす)
(f)活用形変換の設定値(0=無変換、1=崩れた活用形に変換)
(g)言いよどみ変換の設定値(0=無変換、1=言いよどみ化)
(h)人称代名詞置換用のキャラクタ別人称代名詞リスト29(詳細は後述)のファイル名(ファイル名を指定しない場合は、無変換とみなす)
(i)方言・特殊語彙置換用のキャラクタ別語彙置換ルール30(詳細は後述)のファイル名(ファイル名を指定しない場合は、無変換とみなす)
(j)音素置換用のキャラクタ別音素置換ルール31(詳細は後述)のファイル名(ルールのファイル名を指定しない場合は、無変換とみなす)
(k)使用する弁別的無意味表現を示す文字列(弁別的無意味表現を指定しない場合は、無変換とみなす)
(l)使用する記号類を示す文字列(記号類を指定しない場合は、無変換とみなす)
参考文献2:今村賢治、泉朋子、菊井玄一郎、佐藤理史、“述部機能表現の意味ラベルタガー”、言語処理学会第17回年次大会発表論文集、2011
(2){ワタシ}_ハ/{サムガリ}_ナ_ノデ_、/{アタタカ}_イ/{フクソウ}_ヲ/{エラ}_ン_ダ_。
(3){代名詞}_係助詞/{名詞}_助動詞_接続助詞_読点/{形容詞語幹}_活用語尾:連体形/{名詞}_格助詞/{動詞語幹:バ行五段}_活用語尾:連用形−音便_助動詞_句点
(4){*}_*/{*}_*_理由_*/{*}_*/{*}_*/{*}_*_完了_*
私は寒がりなので、暖かい服装を選<<[連用形]ました>>。
敬体(でございます体)の例:
私は寒がりなので、暖かい服装を選<<[連用形−音便]たのでございます>>。
私は寒がりなので、暖かい服装を選<<[連用形]ました>>。
⇒私は寒がりなので、暖かい服装を選<<びました>>。
文節「選[連用形]ました」における、文節主辞の品詞は「動詞語幹:バ行五段」、タグ「活用形」が示す活用形は「連用形」であるので、この条件にマッチする活用形の表記「び」が取得される。
私は寒がりなので、暖かい服装を選<<[連用形−音便]たのでございます>>。 ⇒私は寒がりなので、暖かい服装を選<<んだのでございます>>。
文節「選[連用形−音便]たのでございます」における、文節主辞の品詞は「動詞語幹:バ行五段」、タグ「活用形」が示す活用形は「連用形(音便形)」であるので、この条件にマッチする活用形の表記「ん」が取得される。
わたしはさむがりなので、あたたかいふくそうをえらんだ。
私は<<、>>寒がりなので、暖かい服装を<<、>>選んだ。
私は寒がり<<だ。なので、>>暖かい服装を選んだ。
私は寒がりなので、暖かい服装を選ん<<だの>>。
私は寒がりなので、暖<<けぇ>>服装を選んだ。
<<わ、>>私は寒がりなので、暖かい服装を選んだ。
<<あたし>>は寒がりなので、暖かい服装を選んだ。
私は寒がりなので、<<ぬくとい>>服装を選んだ。
私は寒がり<<にゃにょ>>で、暖かい服装を選んだ。
私は寒がりなので、暖かい服装を選んだ。<<ピョン!>>
私は寒がりなので、暖かい服装を選んだ。<<(*^o^*)>>
(2){ワタシ}_ハ/{サムガリ}_ナ_ノデ_、/{アタタカ}_イ/{フクソウ}_ヲ/{エラ}_<<dummy>>_<<dummy>>_。
(3){代名詞}_係助詞/{名詞}_助動詞_接続助詞_読点/{形容詞語幹}_活用語尾:連体形/{名詞}_格助詞/{動詞語幹:バ行五段}_<<活用語尾:連用形>>_<<dummy>>_句点
(4){*}_*/{*}_*_理由_*/{*}_*/{*}_*/{*}_*_完了_*
・(d)文構造の変換は、その他11種の書き換え処理よりも先に適用するのが良い。
・(g)言いよどみへの変換、及び(b)文字種の変換は、(d)文構造、(i)方言・特殊語彙、(a)文体、(e)述部機能表現・キャラ語尾、及び(h)人称代名詞よりも後に適用するのが良い。ここで、(g)言いよどみへの変換と(b)文字種の変換の適用順序はどちらが先でも構わない。
・(i)方言・特殊語彙の置換は、(d)文構造より後、かつ、(a)文体、(e)述部機能表現・キャラ語尾の変換よりも先に適用するのが良い。
本実施形態では、上記3点を踏まえ、(d)文構造、(i)方言・特殊語彙置換、(a)文体、(e)述部機能表現・キャラ語尾、(h)人称代名詞、(b)文字種、(f)活用形、(g)言いよどみ、(j)音素置換、(c)分かち書き、(k)弁別的無意味表現、(l)記号類の順で書き換え処理を適用するものとする。
次に、本実施形態に係る言語表現書き換え装置10の作用について説明する。目的のキャラクタに応じた言語表現の書き換えに関する設定値が記載された設定ファイル21、及びキャラクタに応じた言語表現への書き換えの対象となる入力文23が言語表現書き換え装置10に入力されると、言語表現書き換え処理装置10において、図12に示す言語表現書き換え処理ルーチンが実行される。
11 設定部
12 基本解析部
13 書き換え処理部
13a 文体変換部
13b 文字種変換部
13c 分かち書き変換部
13d 文構造変換部
13e 述部機能表現・キャラ語尾変換部
13f 活用形変換部
13g 言いよどみ変換部
13h 人称代名詞置換部
13i 方言・特殊語彙置換部
13j 音素置換部
13k 弁別的無意味表現挿入部
13l 記号類挿入部
21 設定ファイル
22 設定値データベース
23 入力文
24 文体別機能表現リスト
25 活用表
26 キャラクタ別接続表現リスト
27 キャラクタ別機能表現リスト
28 崩れ活用ルール
29 キャラクタ別人称代名詞リスト
30 キャラクタ別語彙置換ルール
31 キャラクタ別音素置換ルール
32 書き換え文
Claims (13)
- 文体、述部機能表現、及び人称代名詞を含み、かつキャラクタに応じた特徴が表れる複数種類の言語的特徴の各々について、該言語的特徴に基づく言語表現の書き換えに関する設定値を設定する設定部と、
前記設定部により設定された設定値に基づいて、入力文の末尾の文節に含まれる機能表現を対象として文体の種類を変換する処理、入力文の末尾の文節に含まれる機能表現を対象として述部機能表現をキャラクタに応じて変換する処理、及び人称代名詞である形態素をキャラクタに応じた人称代名詞に変換する処理を含む複数種類の言語的特徴に基づく言語表現の書き換え処理のうち、少なくとも1種類以上の書き換え処理を前記入力文に適用する書き換え処理部と、
を含む言語表現書き換え装置。 - 前記設定部は、文構造、活用形、言いよどみ、方言又は特殊語彙、特定の音素、及びキャラクタを弁別可能だが意味を持たない弁別的無意味表現をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、複文の入力文を単文に分割すると共に、キャラクタに応じた接続表現を分割箇所に挿入することで文構造を変換する処理、活用形を変換する処理、言いよどみの表現に変換する処理、特定の語彙を方言又は特殊語彙へ変換する処理、特定の音素をキャラクタに応じた音素に変換する処理、及びキャラクタに応じた弁別的無意味表現を挿入する処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理のうち、少なくとも1種類以上の書き換え処理を入力文に適用する
請求項1記載の言語表現書き換え装置。 - 前記設定部は、文字種、分かち書き、及び記号類をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、前記文字種を変換する処理、分かち書きに変換する処理、及び記号類を挿入する処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理のうち、少なくとも1種類以上の書き換え処理を入力文に適用する
請求項1又は請求項2記載の言語表現書き換え装置。 - 文体、述部機能表現、及び人称代名詞を含み、かつキャラクタに応じた特徴が表れる複数種類の言語的特徴の各々について、該言語的特徴に基づく言語表現の書き換えに関する設定値を設定する設定部と、
前記設定部により設定された設定値に基づいて、文体の種類を変換する処理、述部機能表現をキャラクタに応じて変換する処理、及び人称代名詞である形態素をキャラクタに応じた人称代名詞に変換する処理を含む複数種類の言語的特徴に基づく言語表現の書き換え処理を入力文に適用する書き換え処理部と、
を含む言語表現書き換え装置。 - 前記設定部は、文構造、活用形、言いよどみ、方言又は特殊語彙、特定の音素、及びキャラクタを弁別可能だが意味を持たない弁別的無意味表現をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、文構造を変換する処理、活用形を変換する処理、言いよどみの表現に変換する処理、特定の語彙を方言又は特殊語彙へ変換する処理、特定の音素をキャラクタに応じた音素に変換する処理、及びキャラクタに応じた弁別的無意味表現を挿入する処理のうち、少なくとも1種類以上の処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理を入力文に適用する
請求項4記載の言語表現書き換え装置。 - 前記設定部は、文字種、分かち書き、及び記号類をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、前記文字種を変換する処理、分かち書きに変換する処理、及び記号類を挿入する処理のうち、少なくとも1種類以上の処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理を入力文に適用する
請求項4又は請求項5記載の言語表現書き換え装置。 - 設定部、及び書き換え処理部を含む言語表現書き換え装置における言語表現書き換え方法であって、
前記設定部が、文体、述部機能表現、及び人称代名詞を含み、かつキャラクタに応じた特徴が表れる複数種類の言語的特徴の各々について、該言語的特徴に基づく言語表現の書き換えに関する設定値を設定し、
前記書き換え処理部が、前記設定部により設定された設定値に基づいて、入力文の末尾の文節に含まれる機能表現を対象として文体の種類を変換する処理、入力文の末尾の文節に含まれる機能表現を対象として述部機能表現をキャラクタに応じて変換する処理、及び人称代名詞である形態素をキャラクタに応じた人称代名詞に変換する処理を含む複数種類の言語的特徴に基づく言語表現の書き換え処理のうち、少なくとも1種類以上の書き換え処理を入力文に適用する
言語表現書き換え方法。 - 前記設定部は、文構造、活用形、言いよどみ、方言又は特殊語彙、特定の音素、及びキャラクタを弁別可能だが意味を持たない弁別的無意味表現をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、複文の入力文を単文に分割すると共に、キャラクタに応じた接続表現を分割箇所に挿入することで文構造を変換する処理、活用形を変換する処理、言いよどみの表現に変換する処理、特定の語彙を方言又は特殊語彙へ変換する処理、特定の音素をキャラクタに応じた音素に変換する処理、及びキャラクタに応じた弁別的無意味表現を挿入する処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理のうち、少なくとも1種類以上の書き換え処理を入力文に適用する
請求項7記載の言語表現書き換え方法。 - 前記設定部は、文字種、分かち書き、及び記号類をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、前記文字種を変換する処理、分かち書きを変換する処理、及び記号類を挿入する処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理のうち、少なくとも1種類以上の書き換え処理を入力文に適用する
請求項7又は請求項8記載の言語表現書き換え方法。 - 設定部、及び書き換え処理部を含む言語表現書き換え装置における言語表現書き換え方法であって、
前記設定部が、文体、述部機能表現、及び人称代名詞を含み、かつキャラクタに応じた特徴が表れる複数種類の言語的特徴の各々について、該言語的特徴に基づく言語表現の書き換えに関する設定値を設定し、
前記書き換え処理部が、前記設定部により設定された設定値に基づいて、文体の種類を変換する処理、述部機能表現をキャラクタに応じて変換する処理、及び人称代名詞である形態素をキャラクタに応じた人称代名詞に変換する処理を含む複数種類の言語的特徴に基づく言語表現の書き換え処理を入力文に適用する
言語表現書き換え方法。 - 前記設定部は、文構造、活用形、言いよどみ、方言又は特殊語彙、特定の音素、及びキャラクタを弁別可能だが意味を持たない弁別的無意味表現をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、文構造を変換する処理、活用形を変換する処理、言いよどみの表現に変換する処理、特定の語彙を方言又は特殊語彙へ変換する処理、特定の音素をキャラクタに応じた音素に変換する処理、及びキャラクタに応じた弁別的無意味表現を挿入する処理のうち、少なくとも1種類以上の処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理を入力文に適用する
請求項10記載の言語表現書き換え方法。 - 前記設定部は、文字種、分かち書き、及び記号類をさらに含む前記複数種類の言語的特徴の各々について、前記設定値を設定し、
前記書き換え処理部は、前記設定部により設定された設定値に基づいて、前記文字種を変換する処理、分かち書きを変換する処理、及び記号類を挿入する処理のうち、少なくとも1種類以上の書き換え処理をさらに含む前記複数種類の言語的特徴に基づく言語表現の書き換え処理を入力文に適用する
請求項10又は請求項11記載の言語表現書き換え方法。 - コンピュータを、請求項1〜請求項6の何れか1項記載の言語表現書き換え装置の各部として機能させるための言語表現書き換えプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015104613A JP6161656B2 (ja) | 2015-05-22 | 2015-05-22 | 言語表現書き換え装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015104613A JP6161656B2 (ja) | 2015-05-22 | 2015-05-22 | 言語表現書き換え装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016218848A JP2016218848A (ja) | 2016-12-22 |
| JP6161656B2 true JP6161656B2 (ja) | 2017-07-12 |
Family
ID=57581220
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015104613A Active JP6161656B2 (ja) | 2015-05-22 | 2015-05-22 | 言語表現書き換え装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6161656B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11861318B2 (en) | 2018-12-18 | 2024-01-02 | Samsung Electronics Co., Ltd. | Method for providing sentences on basis of persona, and electronic device supporting same |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017004051A (ja) * | 2015-06-04 | 2017-01-05 | 日本電信電話株式会社 | 書き換え規則獲得装置、方法、及びプログラム |
| JP6858721B2 (ja) * | 2018-02-06 | 2021-04-14 | Kddi株式会社 | コンテンツに関する対話を実施可能な対話制御装置、プログラム及び方法 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10254877A (ja) * | 1997-03-14 | 1998-09-25 | Omron Corp | 文体変換装置、ワードプロセッサ、および、文体変換方法 |
| JP2012014311A (ja) * | 2010-06-30 | 2012-01-19 | Casio Comput Co Ltd | メール作成装置及びプログラム |
| JP5722375B2 (ja) * | 2013-03-26 | 2015-05-20 | 日本電信電話株式会社 | 文末表現変換装置、方法、及びプログラム |
-
2015
- 2015-05-22 JP JP2015104613A patent/JP6161656B2/ja active Active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11861318B2 (en) | 2018-12-18 | 2024-01-02 | Samsung Electronics Co., Ltd. | Method for providing sentences on basis of persona, and electronic device supporting same |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016218848A (ja) | 2016-12-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106096664B (zh) | 一种基于社交网络数据的情感分析方法 | |
| JP2000514218A (ja) | コンピュータシステムによる日本語テキストの単語の識別 | |
| Alkhatib et al. | The key challenges for Arabic machine translation | |
| Torunoğlu-Selamet et al. | A cascaded approach for social media text normalization of Turkish | |
| Nicolai et al. | Leveraging Inflection Tables for Stemming and Lemmatization. | |
| Hellwig | Sanskrittagger: A stochastic lexical and pos tagger for sanskrit | |
| Patil et al. | Issues and challenges in marathi named entity recognition | |
| Aliwy | Arabic morphosyntactic raw text part of speech tagging system | |
| Nehrdich et al. | One model is all you need: ByT5-Sanskrit, a unified model for Sanskrit NLP tasks | |
| JP6161656B2 (ja) | 言語表現書き換え装置、方法、及びプログラム | |
| JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
| Saharia et al. | Analysis and evaluation of stemming algorithms: a case study with Assamese | |
| Nandathilaka et al. | A rule-based lemmatizing approach for sinhala language | |
| JPH01142866A (ja) | ロマンス語処理装置 | |
| Goweder et al. | Identifying Broken Plurals in Unvowelised Arabic Tex | |
| Aldarmaki et al. | Robust part-of-speech tagging of Arabic text | |
| JP2017004051A (ja) | 書き換え規則獲得装置、方法、及びプログラム | |
| KR100487716B1 (ko) | 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치 | |
| Tien et al. | Vietnamese spelling error detection and correction using BERT and N-gram language model | |
| Oravecz et al. | Semi-automatic normalization of Old Hungarian codices | |
| Doyle et al. | Developing a part-of-speech tagger for diplomatically edited Old Irish text | |
| JP2005063030A (ja) | 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体 | |
| JP3531222B2 (ja) | 類似文字列検索装置 | |
| Durrell et al. | The GerManC Corpus | |
| Fabijanić | A dictionary of abbreviations in linguistics: Towards a bilingual, specialized, single-field, explanatory dictionary |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170214 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170417 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170613 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6161656 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |