JP2017151849A - 外れ値箇所抽出装置、方法及びプログラム - Google Patents
外れ値箇所抽出装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2017151849A JP2017151849A JP2016035300A JP2016035300A JP2017151849A JP 2017151849 A JP2017151849 A JP 2017151849A JP 2016035300 A JP2016035300 A JP 2016035300A JP 2016035300 A JP2016035300 A JP 2016035300A JP 2017151849 A JP2017151849 A JP 2017151849A
- Authority
- JP
- Japan
- Prior art keywords
- fragment
- difficulty
- outlier
- text
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
第一実施形態の外れ値箇所抽出装置は、図1に示すように、前処理部1、断片難易度推定部31、全体難易度推定部32、外れ値箇所抽出部4、代替表現提示部5、代替表現置換部6、記憶部71、記憶部72及び代替表現記憶部8を例えば備えている。
前処理部1には、テキストが入力される。
「親子」:名詞, 普通名詞, 一般,*,*,*, オヤコ, 親子, 親子, オヤコ, 親子, オヤコ, 和,*,*,*,*
「の」:助詞, 格助詞,*,*,*,*, ノ, の, の, ノ, の, ノ, 和,*,*,*,*
「コミュニケーション」:名詞, 普通名詞, サ変可能,*,*,*, コミュニケーション, コミュニケーション-communication, コミュニケーション, コミュニケーション, コミュニケーション, コミュニケーション, 外,*,*,*,*
「の」:助詞, 格助詞,*,*,*,*, ノ, の, の, ノ, の, ノ, 和,*,*,*,*
「契機」:名詞, 普通名詞, 一般,*,*,*, ケイキ, 契機, 契機, ケーキ, 契機, ケーキ, 漢,*,*,*,*
「に」:助詞, 格助詞,*,*,*,*, ニ, に, に, ニ, に, ニ, 和,*,*,*,*
「なる」:動詞, 非自立可能,*,*, 五段-ラ行, 連体形-一般, ナル, 成る, なる, ナル, なる, ナル, 和,*,*,*,*
「よう」:形状詞, 助動詞語幹,*,*,*,*, ヨウ, 様, よう, ヨー, よう, ヨー, ,*,*,*,*
「に」:助動詞,*,*,*, 助動詞-ダ, 連用形-ニ, ダ, だ, に, ニ, だ, ダ, 和,*,*,*,*
断片難易度推定部31には、テキスト及び前処理の結果が入力される。
全体難易度推定部32には、テキスト及び前処理の結果が入力される。
外れ値箇所抽出部4には、断片難易度推定部31で推定された各断片の難易度クラスと、全体難易度推定部32で推定されたテキストの難易度クラスが入力される。
代替表現提示部5には、外れ値箇所が入力される。
代替表現置換部6には、外れ値箇所が入力される。また、代替表現置換部6には、修正要求信号が入力される。
第二実施形態の外れ値箇所抽出装置及び方法は、全体難易度推定部32で推定されたテキストの難易度クラスからの外れ値箇所ではなく、所定の難易度クラスからの外れ値箇所を抽出する装置及び方法である。以下、第一実施形態と異なる部分のみを説明する。第一実施形態と同様の部分については説明を省略する。
第三実施形態の外れ値箇所抽出装置及び方法は、単語n-gramの出現頻度を用いて、断片及び/又はテキストの難易度クラスを推定する装置及び方法である。以下、第一実施形態と異なる部分のみを説明する。第一実施形態と同様の部分については説明を省略する。
断片難易度推定部31は、入力されたテキストに含まれる各断片の難易度クラスを推定する。
全体難易度推定部32は、各単語n-gramの出現頻度を用いて、入力されたテキストの難易度クラスを推定する(ステップS32)。推定されたテキストの難易度クラスは、外れ値箇所抽出部4に出力される。
第四実施形態の外れ値箇所抽出装置及び方法は、第四実施形態の外れ値箇所抽出装置及び方法とは異なり、全体難易度推定部32で推定されたテキストの難易度クラスからの外れ値箇所ではなく、所定の難易度クラスからの外れ値箇所を抽出する装置及び方法である。以下、第三実施形態と異なる部分のみを説明する。第三実施形態と同様の部分については説明を省略する。
外れ値箇所抽出装置における各処理をコンピュータによって実現する場合、外れ値箇所抽出装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
上記の外れ値抽出装置及び方法は、外れ値箇所を抽出する代わりに、上記と同様の処理により、外れ値箇所であると判定をするものであってもよい。また、外れ値抽出装置及び方法は、外れ値箇所であると判定した上で、その判定された外れ値箇所を抽出するものであってもよい。
2 特徴量抽出部
31 断片難易度推定部
32 全体難易度推定部
4 外れ値箇所抽出部
5 代替表現提示部
6 代替表現置換部
71 記憶部
72 記憶部
8 代替表現記憶部
Claims (14)
- 入力されたテキストに含まれ、上記テキストを所定の単位で分割した断片の少なくとも1つについて難易度を推定する断片難易度推定部と、
上記少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、上記テキストの外れ値箇所であると判定する及び/又は上記テキストの外れ値箇所として抽出する外れ値箇所抽出部と、
を含む外れ値箇所抽出装置。 - 入力されたテキストに含まれ、上記テキストを所定の単位で分割した各断片の難易度クラスを推定する断片難易度推定部と、
上記テキストの難易度クラスを推定する全体難易度推定部と、
上記推定された上記各断片の難易度クラスと上記推定されたテキストの難易度クラスとの比較に基づいて、上記推定されたテキストの難易度クラスから離れた難易度を有する、上記テキストの断片である外れ値箇所を抽出する外れ値箇所抽出部と、
を含む外れ値箇所抽出装置。 - 入力されたテキストに含まれ、上記テキストを所定の単位で分割した各断片の難易度クラスを推定する断片難易度推定部と、
上記推定された上記各断片の難易度クラスと所定の難易度クラスとの比較に基づいて、上記所定の難易度クラスから離れた難易度を有する、上記テキストの断片である外れ値箇所を抽出する外れ値箇所抽出部と、
を含む外れ値箇所抽出装置。 - 請求項2又は3の外れ値箇所抽出装置において、
上記各断片の特徴量を抽出する特徴量抽出部を更に含み、
上記断片難易度推定部は、上記抽出された各断片の特徴量を上記各断片の難易度クラスとする、
外れ値箇所抽出装置。 - 請求項2の外れ値箇所抽出装置において、
上記各断片の特徴量を抽出する特徴量抽出部を更に含み、
上記全体難易度推定部は、上記抽出された各断片の特徴量を用いて、上記テキストの難易度クラスを推定する、
外れ値箇所抽出装置。 - 請求項2の外れ値箇所抽出装置において、
上記断片難易度推定部は、上記各断片に含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、上記各断片が各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを上記推定された各断片の難易度クラスとする、
上記全体難易度推定部は、上記テキストに含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、上記テキストが各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを上記推定されたテキストの難易度クラスとする、
外れ値箇所抽出装置。 - 請求項3の外れ値箇所抽出装置において、
上記断片難易度推定部は、上記各断片に含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、上記各断片が各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを上記推定された各断片の難易度クラスとする、
外れ値箇所抽出装置。 - 請求項6又は7の外れ値箇所抽出装置において
Sを上記断片とし、f(Wj,S)を上記各断片における各単語n-gram Wjの出現頻度とし、ΣLf(WL,S)を上記各断片に含まれる単語n-gramの数とし、Dを所定の学習用テキストの数とし、dfiを単語n-gram Wjの出現する上記学習用テキストの数とし、Pi(Wj)を難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)として、上記各断片が難易度クラスiに属する尤度L(i|S)は以下の式により定義される、
Tを上記テキストとし、f(Wj,T)をTにおける上記各単語n-gram Wjの出現頻度とし、ΣLf(WL,T)を上記テキストに含まれる単語n-gramの数とし、Dを所定の学習用テキストの数とし、dfiを単語n-gram Wjの出現する上記学習用テキストの数とし、Pi(Wj)を難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)として、上記テキストが難易度クラスiに属する尤度L(i|T)は以下の式により定義される、
外れ値箇所抽出装置。 - 請求項2から8の何れかの外れ値箇所抽出装置において、
上記断片は単語であるとして、
単語の親密度を、その単語がどの程度なじみがあると感じられるかを表した指標とし、上記各断片の親密度及び上記推定されたテキストの難易度クラス又は上記所定の難易度クラスに対応する親密度が予め定められているとして、
上記外れ値箇所抽出部は、上記各断片の親密度と上記推定されたテキストの難易度クラスおよび/又は上記所定の難易度クラスに対応する親密度との比較に基づいて、上記外れ値箇所を抽出する、
外れ値箇所抽出装置。 - 請求項2から9の何れかの外れ値箇所抽出装置において、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片を構成する平均語数であるか、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片を構成する文節数であるか、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片における漢字の割合であるか、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片におけるカタカナの割合であるか、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片におけるひらがなの割合であるか、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片における漢字とカタカナの割合であるか、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片における能動態又は受動態の割合であるか、
上記断片は少なくとも1個の文であり、断片の特徴量はその断片における構文木の深さであるか、
の何れかである外れ値箇所抽出装置。 - 請求項2から10の何れかの外れ値箇所抽出装置において、
上記抽出された外れ値箇所の断片と同様の意味を有する断片であって、上記抽出された外れ値箇所の断片の難易度よりも上記推定されたテキストの難易度クラス又は上記所定の難易度クラスに近い難易度の断片である代替表現をユーザに提示する代替表現提示部、
を更に含む外れ値箇所抽出装置。 - 請求項2から10の何れかの外れ値箇所抽出装置において、
上記抽出された外れ値箇所の断片と同様の意味を有する断片であって、上記抽出された外れ値箇所の断片の難易度よりも上記推定されたテキストの難易度クラス又は上記所定の難易度クラスに近い難易度の断片である代替表現により上記テキストの中の上記抽出された外れ値箇所の断片を置換したテキストを出力する代替表現置換提示部、
を更に含む外れ値箇所抽出装置。 - 断片難易度推定部が、入力されたテキストに含まれ、上記テキストを所定の単位で分割した断片の少なくとも1つの難易度を推定する断片難易度推定ステップと、
外れ値箇所抽出部が、上記少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、上記テキストの外れ値箇所であると判定する及び/又は上記テキストの外れ値箇所として抽出する外れ値箇所抽出ステップと、
を含む外れ値箇所抽出方法。 - 請求項1から12の何れかの外れ値箇所抽出装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016035300A JP6502279B2 (ja) | 2016-02-26 | 2016-02-26 | 外れ値箇所抽出装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016035300A JP6502279B2 (ja) | 2016-02-26 | 2016-02-26 | 外れ値箇所抽出装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017151849A true JP2017151849A (ja) | 2017-08-31 |
JP6502279B2 JP6502279B2 (ja) | 2019-04-17 |
Family
ID=59739873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016035300A Active JP6502279B2 (ja) | 2016-02-26 | 2016-02-26 | 外れ値箇所抽出装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6502279B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019212098A (ja) * | 2018-06-06 | 2019-12-12 | 日本電信電話株式会社 | 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム |
JP2022553185A (ja) * | 2019-10-18 | 2022-12-22 | サフラン エレクトロニクス アンド ディフェンス | 振動数異方性に対する機械的補償を備えたセンサ |
WO2023032100A1 (ja) * | 2021-09-01 | 2023-03-09 | 日本電信電話株式会社 | 文書作成支援装置、文書作成支援方法、及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6438876A (en) * | 1987-08-05 | 1989-02-09 | Fuji Xerox Co Ltd | Language data base having speech level |
JP2009032240A (ja) * | 2007-06-27 | 2009-02-12 | Nagaoka Univ Of Technology | 文章の読み易さ評価システム及び文章の読み易さ評価方法 |
JP2009140074A (ja) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 用語難易度診断装置および用語難易度診断プログラム |
JP2011013811A (ja) * | 2009-06-30 | 2011-01-20 | Konan Gakuen | 単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体 |
US20150057996A1 (en) * | 2013-08-22 | 2015-02-26 | Ricoh Company, Ltd. | Text processing apparatus and text display system |
-
2016
- 2016-02-26 JP JP2016035300A patent/JP6502279B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6438876A (en) * | 1987-08-05 | 1989-02-09 | Fuji Xerox Co Ltd | Language data base having speech level |
JP2009032240A (ja) * | 2007-06-27 | 2009-02-12 | Nagaoka Univ Of Technology | 文章の読み易さ評価システム及び文章の読み易さ評価方法 |
JP2009140074A (ja) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 用語難易度診断装置および用語難易度診断プログラム |
JP2011013811A (ja) * | 2009-06-30 | 2011-01-20 | Konan Gakuen | 単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体 |
US20150057996A1 (en) * | 2013-08-22 | 2015-02-26 | Ricoh Company, Ltd. | Text processing apparatus and text display system |
JP2015041284A (ja) * | 2013-08-22 | 2015-03-02 | 株式会社リコー | 文章処理装置、文章表示システム、プログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019212098A (ja) * | 2018-06-06 | 2019-12-12 | 日本電信電話株式会社 | 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム |
WO2019235446A1 (ja) * | 2018-06-06 | 2019-12-12 | 日本電信電話株式会社 | 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム |
JP7106999B2 (ja) | 2018-06-06 | 2022-07-27 | 日本電信電話株式会社 | 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム |
JP2022553185A (ja) * | 2019-10-18 | 2022-12-22 | サフラン エレクトロニクス アンド ディフェンス | 振動数異方性に対する機械的補償を備えたセンサ |
WO2023032100A1 (ja) * | 2021-09-01 | 2023-03-09 | 日本電信電話株式会社 | 文書作成支援装置、文書作成支援方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6502279B2 (ja) | 2019-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9959776B1 (en) | System and method for automated scoring of texual responses to picture-based items | |
US8577898B2 (en) | System and method for rating a written document | |
US8706474B2 (en) | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names | |
US9164983B2 (en) | Broad-coverage normalization system for social media language | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
US8630839B2 (en) | Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method | |
US10452785B2 (en) | Translation assistance system, translation assistance method and translation assistance program | |
KR20080021017A (ko) | 텍스트 기반의 문서 비교 | |
JPWO2016051551A1 (ja) | 文章生成システム | |
Wanner | On the relevance of syntactic and discourse features for author profiling and identification | |
CN105512110B (zh) | 一种基于模糊匹配与统计的错字词知识库构建方法 | |
Zhang et al. | HANSpeller++: A unified framework for Chinese spelling correction | |
JP6502279B2 (ja) | 外れ値箇所抽出装置、方法及びプログラム | |
Rana et al. | Detection and correction of real-word errors in Bangla language | |
US10515148B2 (en) | Arabic spell checking error model | |
Sharma et al. | Word prediction system for text entry in Hindi | |
Lee et al. | Combining Mutual Information and Entropy for Unknown Word Extraction from Multilingual Code-Switching Sentences. | |
Kashani et al. | Automatic transliteration of proper nouns from Arabic to English | |
CN111444318A (zh) | 一种文本纠错方法 | |
Ahn | Automatically detecting authors' native language | |
Saharia | Phone-based identification of language in code-mixed social network data | |
Kocher et al. | Author clustering using spatium | |
KR101288900B1 (ko) | 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템 | |
Udagedara et al. | Language model-based spell-checker for sri lankan names and addresses | |
Doshi et al. | Normalizing text using language modelling based on phonetics and string similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190320 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6502279 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |