JP2017151849A - 外れ値箇所抽出装置、方法及びプログラム - Google Patents

外れ値箇所抽出装置、方法及びプログラム Download PDF

Info

Publication number
JP2017151849A
JP2017151849A JP2016035300A JP2016035300A JP2017151849A JP 2017151849 A JP2017151849 A JP 2017151849A JP 2016035300 A JP2016035300 A JP 2016035300A JP 2016035300 A JP2016035300 A JP 2016035300A JP 2017151849 A JP2017151849 A JP 2017151849A
Authority
JP
Japan
Prior art keywords
fragment
difficulty
outlier
text
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016035300A
Other languages
English (en)
Other versions
JP6502279B2 (ja
Inventor
早苗 藤田
Sanae Fujita
早苗 藤田
正嗣 服部
Masatsugu Hattori
正嗣 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016035300A priority Critical patent/JP6502279B2/ja
Publication of JP2017151849A publication Critical patent/JP2017151849A/ja
Application granted granted Critical
Publication of JP6502279B2 publication Critical patent/JP6502279B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】テキストに含まれる少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を判定及び/又は抽出する技術を提供する。【解決手段】外れ値箇所抽出装置は、入力されたテキストに含まれ、テキストを所定の単位で分割した断片の少なくとも1つについて難易度を推定する断片難易度推定部31と、少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、テキストの外れ値箇所であると判定する及び/又はテキストの外れ値箇所として抽出する外れ値箇所抽出部4と、を備えている。【選択図】図1

Description

この発明は、テキストに含まれる少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を判定及び/又は抽出する技術に関する。
テキストの難易度の推定を行う研究は古くから行われてきている。しかし、その多くは、テキスト全体の難易度を推定することを目的として提案されており、一部の文章や語句、言い回しに関する情報をフィードバックすることによって文章作成支援に利用できるものではない。
例えば、非特許文献1では、難易度の推定に文字bigramのみを特徴量として用いる。そのため、対象テキストには一定以上の分量の文字が含まれることが要求される。また、非特許文献1では、有効文字bigram が25 以上あれば、相関係数0.9 以上という高い相関で難易度を推定できると報告している(例えば、非特許文献1参照。)。
また、非特許文献2では、一文に含まれる平均述語数とテキスト全体のひらがなの割合を変数とし、対象学年(難易度)を推定する重回帰式を提案している。非特許文献2の場合、推定のために必要なテキストの分量は少なくてもよいという利点がある。しかしながら、述語数や割合だけを利用しているため、個々の語の難しさなどをフィードバックすることはできない(例えば、非特許文献2参照。)。
小島健輔,外2名,「文字bigram モデルを用いた日本語テキストの難易度推定」,言語処理学会,第15 回年次大会,発表論文集,2009年3月,pp.897-900 柴崎秀子,外1名,「国語科教科書を基にした小・中学校の文章難易度学年判定式の構築」,日本教育工学会論文誌,Vol. 33,No. 4,pp. 449-458,2010
これまでの難易度の推定技術は、テキスト全体の難易度の推定を行うことを目的に提案されており、テキスト中の一部について要求される難易度と一致しないことを示したり、一致しない箇所のフィードバックを行ったりすることができなかった。
この発明の目的は、テキストに含まれる少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、テキストの外れ値箇所であると判定する及び/又はテキストの外れ値箇所として抽出する外れ値箇所抽出装置、方法及びプログラムを提供することである。
この発明の一態様による外れ値箇所抽出装置は、入力されたテキストに含まれ、テキストを所定の単位で分割した断片の少なくとも1つについて難易度を推定する断片難易度推定部と、少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、テキストの外れ値箇所であると判定する及び/又はテキストの外れ値箇所として抽出する外れ値箇所抽出部と、を備えている。
この発明の一態様による外れ値箇所抽出装置は、入力されたテキストに含まれ、テキストを所定の単位で分割した各断片の難易度クラスを推定する断片難易度推定部と、テキストの難易度クラスを推定する全体難易度推定部と、推定された各断片の難易度クラスと推定されたテキストの難易度クラスとの比較に基づいて、推定されたテキストの難易度クラスから離れた難易度を有する、テキストの断片である外れ値箇所を抽出する外れ値箇所抽出部と、を備えている。
この発明の一態様による外れ値箇所抽出装置は、入力されたテキストに含まれ、テキストを所定の単位で分割した各断片の難易度クラスを推定する断片難易度推定部と、推定された各断片の難易度クラスと所定の難易度クラスとの比較に基づいて、所定の難易度クラスから離れた難易度を有する、テキストの断片である外れ値箇所を抽出する外れ値箇所抽出部と、を備えている。
テキストに含まれる少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、テキストの外れ値箇所であると判定する及び/又はテキストの外れ値箇所として抽出することができる。
外れ値箇所抽出装置の例を説明するためのブロック図。 外れ値箇所抽出装置の例を説明するためのブロック図。 外れ値箇所抽出方法の例を説明するための流れ図。 初出難易度クラスの例を示す図。 断片の親密度の例を示す図。 難易度に対応する親密度の例を示す図。 各難易度クラスにおける平均語数の例を示す図。 単語の生起確率の例を示す図。 単語の生起確率の例を示す図。
以下、図面を参照して、外れ値箇所抽出装置及び方法の実施形態について説明する。
[第一実施形態]
第一実施形態の外れ値箇所抽出装置は、図1に示すように、前処理部1、断片難易度推定部31、全体難易度推定部32、外れ値箇所抽出部4、代替表現提示部5、代替表現置換部6、記憶部71、記憶部72及び代替表現記憶部8を例えば備えている。
外れ値箇所抽出方法は、例えば、外れ値箇所抽出装置の各部が図3のステップS1からステップS6の処理を行うことにより実現される。
<前処理部1>
前処理部1には、テキストが入力される。
前処理部1は、入力されたテキストに対して、形態素解析、構文解析、固有表現抽出、項構造解析等の前処理を行い、その前処理の結果を断片難易度推定部31及び全体難易度推定部32に出力する(ステップS1)。前処理として形態素解析が行われる場合には、形態素解析の結果が出力される。
形態素解析、構文解析、固有表現抽出、項構造解析等の前処理の技術としては、既存の技術を用いることができる。
以下、前処理の一例である形態素解析の結果の例について説明する。以下は、「親子のコミュニケーションの契機になるように」というテキストの形態素解析の結果の例である。
「親子」:名詞, 普通名詞, 一般,*,*,*, オヤコ, 親子, 親子, オヤコ, 親子, オヤコ, 和,*,*,*,*
「の」:助詞, 格助詞,*,*,*,*, ノ, の, の, ノ, の, ノ, 和,*,*,*,*
「コミュニケーション」:名詞, 普通名詞, サ変可能,*,*,*, コミュニケーション, コミュニケーション-communication, コミュニケーション, コミュニケーション, コミュニケーション, コミュニケーション, 外,*,*,*,*
「の」:助詞, 格助詞,*,*,*,*, ノ, の, の, ノ, の, ノ, 和,*,*,*,*
「契機」:名詞, 普通名詞, 一般,*,*,*, ケイキ, 契機, 契機, ケーキ, 契機, ケーキ, 漢,*,*,*,*
「に」:助詞, 格助詞,*,*,*,*, ニ, に, に, ニ, に, ニ, 和,*,*,*,*
「なる」:動詞, 非自立可能,*,*, 五段-ラ行, 連体形-一般, ナル, 成る, なる, ナル, なる, ナル, 和,*,*,*,*
「よう」:形状詞, 助動詞語幹,*,*,*,*, ヨウ, 様, よう, ヨー, よう, ヨー, ,*,*,*,*
「に」:助動詞,*,*,*, 助動詞-ダ, 連用形-ニ, ダ, だ, に, ニ, だ, ダ, 和,*,*,*,*
<断片難易度推定部31>
断片難易度推定部31には、テキスト及び前処理の結果が入力される。
断片難易度推定部31は、入力されたテキストに含まれる各断片の難易度クラスを推定する(ステップS31)。推定された各断片の難易度クラスは、外れ値箇所抽出部4に出力される。
入力されたテキストは、所定の単位で分割した複数の断片で構成されている。所定の単位は、少なくとも1個の単語や単語n-gram、少なくとも1個の文等のテキストを構成する要素のことである。言い換えれば、断片は、少なくとも1個の単語や単語n-gram、少なくとも1個の文等のテキストを構成する要素である。単語n-gramの例として、n=1の場合の単語n-gramである単語unigram、n=2の場合の単語n-gramである単語bigram、n=3の場合の単語n-gramである単語trigramを挙げることができる。
段落は少なくとも1個の文で構成されるため、少なくとも1個の文を断片とする場合は、テキストの各段落を断片とする場合を含む。
例えば、断片難易度推定部31の中の特徴量抽出部111は、各断片の特徴量を抽出し、断片難易度推定部31は抽出された各断片の特徴量からその断片の難易度クラスを推定する。例えば、推定した各断片の特徴量に対応する難易度クラスを各断片の難易度クラスとする。断片の特徴量は、断片の難易度に関するものであればどのような特徴量であってもよい。例えば、断片が少なくとも1個の文である場合には、断片の特徴量を、その断片を構成する平均語数、その断片を構成する文節数、その断片における漢字の割合、その断片におけるカタカナの割合、その断片におけるひらがなの割合、その断片における漢字とカタカナの割合、その断片における能動態又は受動態の割合、その断片におけるその断片における構文木の深さの何れかとすることができる。
その断片における漢字の割合は、例えば(その断片の中の漢字の文字数)/(その断片の文字数)である。
その断片におけるカタカナの割合は、例えば(その断片の中のカタカナの文字数)/(その断片の文字数)である。
その断片におけるひらがなの割合は、例えば(その断片の中のカタカナの文字数)/(その断片の文字数)である。
その断片における漢字とカタカナの割合は、例えば(その断片の中の漢字とカタカナの文字数)/(その断片の文字数)である。
その断片における能動態又は受動態の割合は、例えば、(その断片における能動態又は受動態の出現回数)/(その断片における動詞の出現回数)である。
なお、断片が単語n-gramである場合には、断片難易度推定部31は、記憶部71に予め記憶されている、各断片とその各断片の難易度クラスとの対応付けの情報を参照して、各断片の難易度クラスを求めてもよい。例えば、ある断片が初めて出現した難易度クラス、言い換えればその断片が出現する最も低い難易度クラスを、その断片の難易度として記憶部71に記憶させておく。ある断片が初めて出現した難易度クラスである初出難易度クラスの例を図4に示す。断片難易度推定部31は、各断片に対応する難易度クラスを記憶部71から読み込むことにより、その各断片の難易度クラスを得ることができる。
あるいは、例えば、ある断片が頻出する難易度クラス、言い換えればその断片がもっとよよく出現する難易度クラスを、その断片の難易度として記憶部71に記憶させておいてもよい。
<全体難易度推定部32>
全体難易度推定部32には、テキスト及び前処理の結果が入力される。
全体難易度推定部32は、入力されたテキスト全体の難易度クラスを推定する(ステップS32)。記載の簡略化のために、テキスト全体の難易度クラスのことを、単に「テキストの難易度クラス」とも呼ぶ。
断片難易度推定部31において、各断片の特徴量が抽出されている場合には、全体難易度推定部3は、抽出された各断片の特徴量を用いて、入力されたテキストの難易度クラスを推定する。例えば、全体難易度推定部3は、入力されたテキストに含まれる各断片の特徴量の平均値を計算して入力されたテキストの難易度クラスとしてもよい。また、例えば、特徴量として文の長さの平均値が計算されている場合には、文の長さの平均値を閾値判定することで難易度クラスを求めてもよい。これにより、長い文が多いテキストは、難易度が高いという傾向を反映した難易度クラス設定が可能となる。
また、全体断片難易度推定部32の中の特徴量抽出部321が、テキストの特徴量を求め、全体難易度推定部32は求まった特徴量をテキストの難易度クラスとしてもよい。テキストの特徴量は、テキストの難易度に関するものであればどのような特徴量であってもよい。例えば、テキストの特徴量を、そのテキストにおける漢字の割合、そのテキストにおけるカタカナの割合、そのテキストにおけるひらがなの割合、そのテキストにおける漢字とカタカナの割合、そのテキストにおける能動態又は受動態の割合等にすることができる。
そのテキストにおける漢字の割合は、例えば(そのテキストの中の漢字の文字数)/(そのテキストの文字数)である。
そのテキストおけるカタカナの割合は、例えば(そのテキストの中のカタカナの文字数)/(そのテキスト文字数)である。
そのテキストにおけるひらがなの割合は、例えば(そのテキストの中のカタカナの文字数)/(その断片の文字数)である。
そのテキストにおける漢字とカタカナの割合は、例えば(そのテキストの中の漢字とカタカナの文字数)/(その断片の文字数)である。
そのテキストにおける能動態又は受動態の割合は、例えば、(そのテキストにおける能動態又は受動態の出現回数)/(そのテキストにおける動詞の出現回数)である。
<外れ値箇所抽出部4>
外れ値箇所抽出部4には、断片難易度推定部31で推定された各断片の難易度クラスと、全体難易度推定部32で推定されたテキストの難易度クラスが入力される。
外れ値箇所抽出部4は、断片難易度推定部31で推定された各断片の難易度クラスと全体難易度推定部32で推定されたテキストの難易度クラスとの組である難易度の組を用いて、全体難易度推定部32で推定されたテキストの難易度クラスから離れた難易度を有する、テキストの断片である外れ値箇所を抽出する(ステップS4)。抽出された外れ値箇所は、代替表現提示部5及び代替表現置換部6に出力される。
なお、各断片の難易度クラスとテキストの難易度クラスとの組である難易度とは、必ずしも組にする必要はない。以下では、組にして比較する例で説明するが、テキストの難易度クラスから離れた難易度を有する、テキストの断片を抽出するために、各断片の難易度クラスとテキストの難易度クラスとの差異を比較できれば、比較方法は問わない。
例えば、外れ値箇所抽出部4は、難易度推定部3で推定されたテキストの難易度クラスから、所定の閾値以上に外れる箇所を抽出する。すなわち、外れ値箇所抽出部4は、各断片の難易度クラスと、推定されたテキストの難易度クラスとの差の絶対値が、所定の閾値(例えば1)以上又はより大である場合に、外れ値箇所抽出部4はその各断片を外れ値箇所として抽出する。
例えば、推定されたテキストの難易度クラスが9だった場合、例文中の「契機」は、後述する図8で示す様に、難易度クラス11以上で出現しやすい語であり、「契機」の難易度クラスは11となる。所定の閾値が1である場合、両難易度クラスの差の絶対値である2は、この所定の閾値である1以上又はより大である。このため、「契機」が外れ値箇所として抽出される。
外れ値箇所抽出部4は、親密度等の難易度クラス以外の指標を用いて外れ値箇所の抽出を行ってもよい。断片が単語であるとして、単語である断片の親密度は、その断片がどの程度なじみがあると感じられるかを表した指標である(例えば、参考文献1参照。)。
〔参考文献1〕天野成昭,外1名,「基本語データベース: 語義別単語親密度」,学習研究社,2008
各断片に対応する親密度が予め定められて、記憶部72に記憶されているとする。各難易度クラスに対応する親密度が、記憶部72に記憶されているとする。図5に各断片に対応する親密度の例を示す。また、図6に各難易度クラスに対応する親密度の例を示す。図5の例では、各難易度クラスに対応する親密度は、区間となっている。このように、各全体難易度に対応する親密度は、区間となっていてもよい。また、図6の例では、12個の難易度クラスのそれぞれに対応する親密度を区間で示している。なお、難易度クラス5よりも低い全体難易度では、いずれも大人にとってはとても親密度の高い語になる。このため、難易度クラス5よりも低い全体難易度に、同じ親密度を対応させてもよい。
各断片の親密度は、例えば参考文献1等の既存のデータベースに基づいて定めることができる。親密度は、例えば7段階で定めることができる。例えば、親密度1だと知っている人が非常に少ない、親密度5以上なら95%以上の大人が知っていることを表す。入力されるテキスト対象が、幼児対象のものであれば、幼児の語彙獲得月齢を用いて、親密度を定めてもよい。
外れ値箇所抽出部4は、親密度を用いて外れ値箇所の抽出を行う場合には、各断片に対応する親密度と、全体難易度推定部32で推定されたテキストの難易度クラスとに対応する親密度を記憶部7から読み込む。
外れ値箇所抽出部4は、例えば、各断片の親密度が、全体難易度推定部32で推定された難易度クラスに対応する親密度よりも低い場合には、その各断片を外れ値箇所とする。
このように、外れ値箇所抽出部4は、各断片の親密度と全体難易度推定部32で推定されたテキストの難易度クラスに対応する親密度との比較に基づいて、外れ値箇所を抽出してもよい。
また、外れ値箇所抽出部4は、難易度の組と親密度の組の両方を使って、外れ値箇所の抽出をしてもよい。外れ値箇所抽出部4は、例えば、各断片の難易度クラスと、推定されたテキストの難易度クラスとの差の絶対値が、所定の閾値(例えば1)以上又はより大である場合であって、かつ、その各断片の親密度が、全体難易度推定部32で推定された難易度クラスに対応する親密度よりも低い場合には、その各断片を外れ値箇所とする。
また、このように、外れ値箇所抽出部4は、親密度の組と、難易度の組との少なくとも一方を用いて、外れ値箇所を抽出してもよい。
なお、外れ値箇所抽出部4は、各断片の難易度クラス及び各断片の親密度の少なくとも一方を用いて外れ値箇所を抽出してもよい。例えば、外れ値箇所抽出部4は、各断片の難易度クラスが所定の閾値以上であり、かつ、その各断片の親密度が所定の以下の場合に、その各断片を外れ値箇所とする。これにより、出現頻度が極端に低い語や、偏りのある語についても、外れ値箇所の抽出処理を行うことができる。
図7に、各難易度クラスにおける平均語数の例を示す。入力されたテキストの難易度クラスは3であり、ある一文である断片の語数は15であるとすると、この一文である断片の語数約15は、テキストの難易度クラス3における平均語数約11を大きく上回っている。このため、この一文である断片を外れ値箇所とすることが考えられる。
<代替表現提示部5>
代替表現提示部5には、外れ値箇所が入力される。
代替表現提示部5は、外れ値箇所抽出部4で抽出された外れ値箇所の断片と同様の意味を有する断片であって、外れ値箇所抽出部4で抽出された外れ値箇所の断片の難易度クラスよりも全体難易度推定部3で推定された全体難易度に近い難易度の断片である代替表現をユーザに提示する(ステップS5)。この提示は、例えば、CRT、液晶ディスプレイ等の表示装置を介して行われる。なお、代替表現提示部5は、外れ値箇所を更にユーザに提示してもよい。
例えば、外れ値箇所抽出部4において「契機」という単語が難易度クラスが高すぎるため外れ値箇所として抽出された場合には、代替表現提示部5は、「契機」よりも難易度クラスの低い「きっかけ」という単語を置き換える候補として提示することが考えられる。
各断片に対応する代替表現は対応する難易度クラスと共に、代替表現記憶部8に予め記憶されているとする。代替表現は、同義語辞書や、大量のコーパスから類似する語や表現を収集したALAGIN 言語資源・音声資源サイト(https://alaginrc.nict.go.jp/)等の既存のデータベースを用いて作成することができる。代替表現提示部5は、入力された外れ値箇所をキーとして代替表現記憶部8を参照することにより、適切な代替表現を読み込む。
代替表現提示部5は、外れ値箇所を提示した代替表現に置換する修正を行うかどうかの提案をユーザに行ってもよい。ユーザは、キーボード、マウス、タッチパネル等の入力装置を用いて、その提案を受け入れる旨の入力を行うと、その旨を表す修正要求信号が代替表現提示部5から代替表現置換部6に出力される。
置き換える候補として提示する候補は、1つであっても複数であってもよい。複数の場合、代替表現提示部5は、外れ値箇所を提示した代替表現のいずれに置換する修正を行うか、あるいは、いずれにも修正を行わないか、複数の提案をユーザに行ってもよい。ユーザは、キーボード、マウス、タッチパネル等の入力装置を用いて、どの候補を受け入れる旨を入力するか、修正を行わない旨の入力を行うと、その旨を表す修正要求信号が代替表現提示部5から代替表現置換部6に出力される。
<代替表現置換部6>
代替表現置換部6には、外れ値箇所が入力される。また、代替表現置換部6には、修正要求信号が入力される。
代替表現置換部6は、外れ値箇所抽出部4で抽出された外れ値箇所の断片と同様の意味を有する断片であって、外れ値箇所抽出部4で抽出された外れ値箇所の断片の難易度クラスよりも全体難易度推定部3で推定された難易度クラスに近い難易度クラスの断片である代替表現により入力されたテキストの中の外れ値箇所抽出部4で抽出された外れ値箇所の断片を置換したテキストを出力する(ステップS6)。
また、修正要求信号を代替表現提示部5から受信した場合には、代替表現置換部6は、外れ値箇所を代替表現提示部5で提示した代替表現に置換する修正を行い、修正後テキストを出力する。
各断片に対応する代替表現は対応する難易度クラスと共に、代替表現記憶部8に予め記憶されているとする。代替表現は、同義語辞書や、大量のコーパスから類似する語や表現を収集したALAGIN 言語資源・音声資源サイト(https://alaginrc.nict.go.jp/)等の既存のデータベースを用いて作成することができる。代替表現置換部6は、入力された外れ値箇所をキーとして代替表現記憶部8を参照することにより、適切な代替表現を読み込み、置換処理を行う。
代替表現提示をせず、最も近いものに自動で置き換えて、修正後のテキストを出力する構成でもよい。その場合には、代替表現提示部5は不要である。
[第二実施形態]
第二実施形態の外れ値箇所抽出装置及び方法は、全体難易度推定部32で推定されたテキストの難易度クラスからの外れ値箇所ではなく、所定の難易度クラスからの外れ値箇所を抽出する装置及び方法である。以下、第一実施形態と異なる部分のみを説明する。第一実施形態と同様の部分については説明を省略する。
所定の難易度クラスは、ユーザにより適宜決定される。
第二実施形態の外れ値箇所抽出装置は、第一実施形態の外れ値箇所抽出装置と異なり、図2に示すように、テキストの難易度クラスを推定する全体難易度推定部32を備えていない。すなわち、第二実施形態の外れ値箇所抽出方法は、ステップS32の処理を行わない。
第二実施形態の外れ値箇所抽出部4、代替表現提示部5及び代替表現置換部6は、全体難易度推定部32で推定されたテキストの難易度クラスに代えて、所定の難易度クラスに基づいて、第一実施形態と同様の処理を行う。
すなわち、第二実施形態の外れ値箇所抽出部4は、断片難易度推定部31で推定された各断片の難易度クラスと所定の難易度クラスとの組である難易度の組を用いて、所定の難易度クラスから離れた難易度を有する、テキストの断片である外れ値箇所を抽出する。言い換えれば、第二実施形態の外れ値箇所抽出部4は、断片難易度推定部31で推定された各断片の難易度クラスと所定の難易度クラスとの比較に基づいて、所定の難易度クラスから離れた難易度を有する、テキストの断片である外れ値箇所を抽出する。
第二実施形態の代替表現提示部5は、外れ値箇所抽出部4で抽出された外れ値箇所の断片と同様の意味を有する断片であって、外れ値箇所抽出部4で抽出された外れ値箇所の断片の難易度クラスよりも所定の難易度クラスに近い難易度の断片である代替表現をユーザに提示する(ステップS5)。
第二実施形態の代替表現置換部6は、外れ値箇所抽出部4で抽出された外れ値箇所の断片と同様の意味を有する断片であって、外れ値箇所抽出部4で抽出された外れ値箇所の断片の難易度クラスよりも所定の全体難易度に近い難易度クラスの断片である代替表現により入力されたテキストの中の外れ値箇所抽出部4で抽出された外れ値箇所の断片を置換したテキストを出力する(ステップS6)。
また、各断片の親密度及び所定の難易度クラスに対応する親密度が予め定められているとして、第二実施形態の外れ値箇所抽出部4は、各断片の親密度と所定の難易度クラスに対応する親密度との比較に基づいて、外れ値箇所を抽出してもよい。
このように、全体難易度推定部32で推定された難易度クラスの代わりにユーザが予め指定した所定の難易度クラスを用いてもよい。例えば、ユーザが小学校3年生程度の難易度を設定したい場合、小学校3年生程度の難易度を表すクラスを所定の難易度クラスとする。
例えば、小学校3年生程度の難易度を設定したいのに、テキスト全体が小学校3年生程度の難易度よりも難しいかどうかを調べたい場合には、全体難易度推定部32による全体の難易度の推定を行うが、その必要がない場合には、単に小学校3年生程度の難易度クラスから遠い箇所を外れ値箇所とすればよいため、全体難易度推定部32による全体の難易度の推定は行わなくてよい。
[第三実施形態]
第三実施形態の外れ値箇所抽出装置及び方法は、単語n-gramの出現頻度を用いて、断片及び/又はテキストの難易度クラスを推定する装置及び方法である。以下、第一実施形態と異なる部分のみを説明する。第一実施形態と同様の部分については説明を省略する。
<断片難易度推定部31>
断片難易度推定部31は、入力されたテキストに含まれる各断片の難易度クラスを推定する。
例えば、断片が少なくとも1個の文である場合(具体的には、断片が段落である等の場合)には、断片難易度推定部31は、各単語n-gramの出現頻度を用いて、各断片の難易度クラスを推定する。
断片難易度推定部31は、各断片に含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、各断片が各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを各断片の難易度クラスとする。
各断片Sが難易度クラスiに属する尤度L(i|S)は、例えば以下の式(3')及び式(4')により定義される。
Figure 2017151849
ここで、tf・idf(Wj)は単語n-gram Wjの重みであり、f(Wj,S)は各断片における各単語n-gram Wjの出現頻度であり、ΣLf(WL,S)は上記各断片に含まれる単語n-gramの数であり、Dは所定の学習用テキストの数であり(すなわち、各難易度クラスの学習用テキストの集合Diの要素の数|Di|の和Σi=1 N|Di|であり)、dfiは単語n-gram Wjの出現する学習用テキストの数であり、Pi(Wj)は難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)である。
難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)は例えば以下の式(1)により定義される。ここで、iは、事前に設定された難易度クラスの種類を表す値(i=1,…,N)である。jは、1以上の自然数である。
Figure 2017151849
ここで、Nは、難易度クラスの個数であり、所定の正の整数である。f(wj,Di)は、Diにおける断片wjの出現頻度である。
各単語n-gramの特徴量としてPi(wj)が予め計算され記憶部71に予め記憶される。また、式(3')及び式(4')の計算で必要なD, dfi等の他のパラメータも記憶部71に記憶されている。断片難易度推定部31は、記憶部71からこれらの値を読み込み式(3')及び式(4')の計算を行う。
外れ値箇所抽出装置は、Pi(wj)を事前に計算するための事前計算部9を備えていてもよい。事前計算部9は、Pi(wj)=0となる場合に上記式(3)及び式(3')により定義される尤度が計算できなくなることを避けるため、全てのPi(wj)が0でなくなるまで、以下の式(2)を適用することにより、Pi(wj)を補正してもよい。
Figure 2017151849
また、Pi(wj)が0でない場合でも、特徴量抽出部2は式(2)によって得られる値を利用してもよい。例えば式(2)によって得られる値が式(1)で得られている値より大きい場合にも、特徴量抽出部2は式(2)によって得られる値を利用してもよい。
なお、0の場合にのみ両隣の値の和の1/2とする式(2)では不具合が生じる場合がある。
Figure 2017151849
例えば、難易度クラスdの補正前のPk(wj)は0であるため、式(2)により補正をすると、難易度クラスdの補正後のPk(wj)=(0.6+0.6)/2=0.3となる。この場合、補正前後でbとdの大小関係が逆転してしまう。すなわち、補正前では難易度クラスbのPb(wj)=0.1 > 難易度クラスdのPd(wj)=0であったにも関わらず、補正後では難易度クラスbのPb(wj)=0.1 < 難易度クラスdのPd(wj)=0.3となり、補正の前後でbとdでPi(wj)の大小関係が逆転している。そこで、0に近い値を有し、自身より大きな値の隣に存在する場合には0でなくても補正してもよい。具体的には、上記の場合、bについても上記式(2)により補正してもよい。
断片が1個の単語で構成されているとした場合、すなわち単語uni-gramの場合、難易度クラスiにおける断片wjの生起確率Pi(wj)は、「きっかけ」「契機」「親子」等の各単語の各難易度クラスにおける生起確率である。
図8に、「きっかけ」「契機」「親子」という単語のそれぞれの各難易度クラスにおける生起確率の例を示す。また、図9に、「おおかみ」「オオカミ」「狼」という単語のそれぞれの各難易度クラスにおける生起確率の例を示す。図8及び図9において、横軸は難易度クラスを表し、縦軸は生起確率を意味する。図8及び図9では、難易度クラスは1から12までの12種類存在する。この例では、難易度クラスの値が大きいほど難易度が高いことを意味する。この12個の難易度クラスは、それぞれ小学校1年生から高校3年生に対応している。すなわち、難易度クラス1が小学校1年生に、難易度クラス2が小学校2年生に、・・・、難易度クラス12が高校3年生に対応している。
図8から、「契機」という単語は、9から12という高い難易度クラスでのみ生起確率が高いことがわかる。また、図9から、「おおかみ」という単語は低い難易度クラスで生起確率が高く、「オオカミ」という単語は中程度の難易度クラスで生起確率が高く、「狼」という単語は高い難易度クラスで生起確率が高いことがわかる。
断片が2個の単語で構成されている場合、すなわち単語bigramの場合、難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)は、「親子の」等の2個の単語の各難易度クラスにおける生起確率となる。この例のように、断片が2個以上の単語である場合の生起確率を計算することにより、単語より長い複合表現や、言い回し等の各難易度クラスにおける生起確率を計算することができる。
これらの生起確率を用いて、より長い単位のn-gramで構成される断片やテキストについても、各難易度クラスに対する尤度を計算することができる。
なお、断片難易度推定部31は、第一実施形態で説明した処理と同様の処理により、各断片の難易度クラスを推定してもよい。例えば、断片が単語n-gramである場合には、断片難易度推定部31は、記憶部71に予め記憶されている、各断片とその各断片の難易度クラスとの対応付けの情報を参照して、各断片の難易度クラスを求めてもよい。
<全体難易度推定部32>
全体難易度推定部32は、各単語n-gramの出現頻度を用いて、入力されたテキストの難易度クラスを推定する(ステップS32)。推定されたテキストの難易度クラスは、外れ値箇所抽出部4に出力される。
例えば、全体難易度推定部32は、入力されたテキストに含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、入力されたテキストが各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを入力されたテキストの難易度クラスとする。
入力されたテキストTが難易度クラスiに属する尤度L(i|T)は、例えば以下の式(3)及び式(4)により定義される。
Figure 2017151849
ここで、tf・idf(Wj)は単語n-gram Wjの重みであり、f(Wj,T)はTにおける各単語n-gram Wjの出現頻度であり、ΣLf(WL,T)は上記テキストに含まれる単語n-gramの数であり、Dは所定の学習用テキストの数であり、dfiは単語n-gram Wjの出現する上記学習用テキストの数であり、Pi(Wj)は難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)である。
各単語n-gramの特徴量としてPi(Wj)が予め計算され記憶部71に予め記憶される。また、式(3)及び式(4)の計算で必要なD, dfi等の他のパラメータも記憶部71に記憶されている。全体難易度推定部3は、記憶部71からこれらの値を読み込み式(3) 及び式(4)の計算を行う。
Pi(Wj)の定義及び事前計算については、上記と同様であるため、ここでは重複説明を省略する。
なお、全体難易度推定部32は、第一実施形態で説明した処理と同様の処理によりテキストの難易度クラスを推定してもよい。例えば、全体断片難易度推定部32の中の特徴量抽出部321が、テキストの特徴量を求め、全体難易度推定部32は求まった特徴量をテキストの難易度クラスとしてもよい。
なお、全体難易度推定部32は、各単語n-gramの出現頻度を用いて入力されたテキストの難易度クラスを推定した結果である単語n-gram に基づく各難易度クラスに対する尤度と、第一実施形態で説明した処理と同様の処理により得たテキストの平均文長や漢字の割合、受動態や能動態の割合などをすべて特徴量として利用し、学習器によって最終的な難易度クラスを推定してもよい。この時、学習器としては、SVM-RANK などの既知の学習器を利用することができる。また、これらの特徴量を用いて難易度クラスを推定するためのモデルは、予め学習データから構築して記憶させておく。
[第四実施形態]
第四実施形態の外れ値箇所抽出装置及び方法は、第四実施形態の外れ値箇所抽出装置及び方法とは異なり、全体難易度推定部32で推定されたテキストの難易度クラスからの外れ値箇所ではなく、所定の難易度クラスからの外れ値箇所を抽出する装置及び方法である。以下、第三実施形態と異なる部分のみを説明する。第三実施形態と同様の部分については説明を省略する。
所定の難易度クラスは、ユーザにより適宜決定される。
第四実施形態の外れ値箇所抽出装置は、第三実施形態の外れ値箇所抽出装置と異なり、図2に示すように、テキストの難易度クラスを推定する全体難易度推定部32を備えていない。すなわち、第四実施形態の外れ値箇所抽出方法は、ステップS32の処理を行わない。
第四実施形態の外れ値箇所抽出部4、代替表現提示部5及び代替表現置換部6は、全体難易度推定部32で推定されたテキストの難易度クラスに代えて、所定の難易度クラスに基づいて、第三実施形態と同様の処理を行う。
すなわち、第四実施形態の外れ値箇所抽出部4は、断片難易度推定部31で推定された各断片の難易度クラスと所定の難易度クラスとの組である難易度の組を用いて、所定の難易度クラスから離れた難易度を有する、テキストの断片である外れ値箇所を抽出する。言い換えれば、第四実施形態の外れ値箇所抽出部4は、断片難易度推定部31で推定された各断片の難易度クラスと所定の難易度クラスとの比較に基づいて、所定の難易度クラスから離れた難易度を有する、テキストの断片である外れ値箇所を抽出する。
第四実施形態の代替表現提示部5は、外れ値箇所抽出部4で抽出された外れ値箇所の断片と同様の意味を有する断片であって、外れ値箇所抽出部4で抽出された外れ値箇所の断片の難易度クラスよりも所定の難易度クラスに近い難易度の断片である代替表現をユーザに提示する(ステップS5)。
第四実施形態の代替表現置換部6は、外れ値箇所抽出部4で抽出された外れ値箇所の断片と同様の意味を有する断片であって、外れ値箇所抽出部4で抽出された外れ値箇所の断片の難易度クラスよりも所定の難易度クラスに近い難易度クラスの断片である代替表現により入力されたテキストの中の外れ値箇所抽出部4で抽出された外れ値箇所の断片を置換したテキストを出力する(ステップS6)。
また、各断片の親密度及び所定の難易度クラスに対応する親密度が予め定められているとして、第四実施形態の外れ値箇所抽出部4は、各断片の親密度と所定の難易度クラスに対応する親密度との比較に基づいて、外れ値箇所を抽出してもよい。
このように、全体難易度推定部32で推定された難易度クラスの代わりにユーザが予め指定した所定の難易度クラスを用いてもよい。例えば、ユーザが小学校3年生程度の難易度を設定したい場合、小学校3年生程度の難易度を表すクラスを所定の難易度クラスとする。
例えば、小学校3年生程度の難易度を設定したいのに、テキスト全体が小学校3年生程度の難易度よりも難しいかどうかを調べたい場合には、全体難易度推定部32による全体の難易度の推定を行うが、その必要がない場合には、単に小学校3年生程度の難易度クラスから遠い箇所を外れ値箇所とすればよいため、全体難易度推定部32による全体の難易度の推定は行わなくてよい。
[プログラム及び記録媒体]
外れ値箇所抽出装置における各処理をコンピュータによって実現する場合、外れ値箇所抽出装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
[変形例]
上記の外れ値抽出装置及び方法は、外れ値箇所を抽出する代わりに、上記と同様の処理により、外れ値箇所であると判定をするものであってもよい。また、外れ値抽出装置及び方法は、外れ値箇所であると判定した上で、その判定された外れ値箇所を抽出するものであってもよい。
上記の外れ値抽出装置は、入力されたテキストに含まれ、テキストを所定の単位で分割した断片の少なくとも1つについて難易度を推定する断片難易度推定部31と、少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、テキストの外れ値箇所であると判定する及び/又はテキストの外れ値箇所として抽出する外れ値箇所抽出部4と、を備えている外れ値抽出装置の一例であると考えることができる。
外れ値箇所抽出部31は、少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、テキストの外れ値箇所であると判定する及び/又はテキストの外れ値箇所として抽出することができれば上記以外の処理により外れ値箇所の判定及び/又は抽出を行ってもよい。
例えば、外れ値箇所抽出部31は、統計的に各断片の難易度の分布を描いたとき、難易度がその分布の中で所定の位置よりも裾の方に行ってしまっていたらその難易度に対応する断片を外れ値箇所とする、というような統計的な所定の基準に基づいて、外れ値箇所の判定及び/又は抽出を行ってもよい。
上記の断片の難易度クラスは、断片の難易度の一例である。断片の難易度は、離散的な値を取るものであってもよいし、連続的な値を取るものであってもよい。
図7及び図8の例では、難易度クラスの種類の個数は12あり、12個の難易度クラスは小学校1年生から高校3年生に対応していたが、これは一例である。Nを所定の正の整数として、難易度クラスの種類の個数はN個であってもよい。また、N個の難易度クラスは、年齢や学年以外の指標に対応させてもよい。例えば、難易度クラスを、「一般」「専門1(新聞)」「専門2(特許)」「専門3(教科書)」等の専門分野に対応させてもよい。これにより、外れ値箇所抽出装置及び方法を、ある専門分野でのマニュアル作成時に利用することができる。
また、外れ値箇所抽出装置に、代替表現提示部5は備えられていなくてもよい。
外れ値箇所として、テキストから単語や段落を抽出するだけでなく、外れ値箇所としてテキストからページを抽出してもよい。この場合、断片は、ページとなる。また、外れ値箇所として、複数のテキストから、難易度クラスの異なるテキストを抽出してもよい。この場合、複数のテキストの難易度クラスと、各断片である各テキストの難易度クラスとが推定され、複数のテキストの難易度クラスから離れた難易度クラスのテキストが外れ値箇所として抽出される。このように、「入力されたテキスト」及び「断片」の定義を適宜変えることにより、外れ値箇所抽出装置及び方法を様々な用途に拡張してもよい。
上記説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1 前処理部
2 特徴量抽出部
31 断片難易度推定部
32 全体難易度推定部
4 外れ値箇所抽出部
5 代替表現提示部
6 代替表現置換部
71 記憶部
72 記憶部
8 代替表現記憶部

Claims (14)

  1. 入力されたテキストに含まれ、上記テキストを所定の単位で分割した断片の少なくとも1つについて難易度を推定する断片難易度推定部と、
    上記少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、上記テキストの外れ値箇所であると判定する及び/又は上記テキストの外れ値箇所として抽出する外れ値箇所抽出部と、
    を含む外れ値箇所抽出装置。
  2. 入力されたテキストに含まれ、上記テキストを所定の単位で分割した各断片の難易度クラスを推定する断片難易度推定部と、
    上記テキストの難易度クラスを推定する全体難易度推定部と、
    上記推定された上記各断片の難易度クラスと上記推定されたテキストの難易度クラスとの比較に基づいて、上記推定されたテキストの難易度クラスから離れた難易度を有する、上記テキストの断片である外れ値箇所を抽出する外れ値箇所抽出部と、
    を含む外れ値箇所抽出装置。
  3. 入力されたテキストに含まれ、上記テキストを所定の単位で分割した各断片の難易度クラスを推定する断片難易度推定部と、
    上記推定された上記各断片の難易度クラスと所定の難易度クラスとの比較に基づいて、上記所定の難易度クラスから離れた難易度を有する、上記テキストの断片である外れ値箇所を抽出する外れ値箇所抽出部と、
    を含む外れ値箇所抽出装置。
  4. 請求項2又は3の外れ値箇所抽出装置において、
    上記各断片の特徴量を抽出する特徴量抽出部を更に含み、
    上記断片難易度推定部は、上記抽出された各断片の特徴量を上記各断片の難易度クラスとする、
    外れ値箇所抽出装置。
  5. 請求項2の外れ値箇所抽出装置において、
    上記各断片の特徴量を抽出する特徴量抽出部を更に含み、
    上記全体難易度推定部は、上記抽出された各断片の特徴量を用いて、上記テキストの難易度クラスを推定する、
    外れ値箇所抽出装置。
  6. 請求項2の外れ値箇所抽出装置において、
    上記断片難易度推定部は、上記各断片に含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、上記各断片が各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを上記推定された各断片の難易度クラスとする、
    上記全体難易度推定部は、上記テキストに含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、上記テキストが各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを上記推定されたテキストの難易度クラスとする、
    外れ値箇所抽出装置。
  7. 請求項3の外れ値箇所抽出装置において、
    上記断片難易度推定部は、上記各断片に含まれる各単語n-gramの出現頻度と、難易度クラスごとに予め求められた各単語の生起確率とに基づいて、上記各断片が各難易度クラスに属する尤度を推定し、最も尤度の高い難易度クラスを上記推定された各断片の難易度クラスとする、
    外れ値箇所抽出装置。
  8. 請求項6又は7の外れ値箇所抽出装置において
    Sを上記断片とし、f(Wj,S)を上記各断片における各単語n-gram Wjの出現頻度とし、ΣLf(WL,S)を上記各断片に含まれる単語n-gramの数とし、Dを所定の学習用テキストの数とし、dfiを単語n-gram Wjの出現する上記学習用テキストの数とし、Pi(Wj)を難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)として、上記各断片が難易度クラスiに属する尤度L(i|S)は以下の式により定義される、
    Figure 2017151849

    Tを上記テキストとし、f(Wj,T)をTにおける上記各単語n-gram Wjの出現頻度とし、ΣLf(WL,T)を上記テキストに含まれる単語n-gramの数とし、Dを所定の学習用テキストの数とし、dfiを単語n-gram Wjの出現する上記学習用テキストの数とし、Pi(Wj)を難易度クラスiにおける単語n-gram Wjの生起確率Pi(Wj)として、上記テキストが難易度クラスiに属する尤度L(i|T)は以下の式により定義される、
    Figure 2017151849

    外れ値箇所抽出装置。
  9. 請求項2から8の何れかの外れ値箇所抽出装置において、
    上記断片は単語であるとして、
    単語の親密度を、その単語がどの程度なじみがあると感じられるかを表した指標とし、上記各断片の親密度及び上記推定されたテキストの難易度クラス又は上記所定の難易度クラスに対応する親密度が予め定められているとして、
    上記外れ値箇所抽出部は、上記各断片の親密度と上記推定されたテキストの難易度クラスおよび/又は上記所定の難易度クラスに対応する親密度との比較に基づいて、上記外れ値箇所を抽出する、
    外れ値箇所抽出装置。
  10. 請求項2から9の何れかの外れ値箇所抽出装置において、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片を構成する平均語数であるか、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片を構成する文節数であるか、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片における漢字の割合であるか、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片におけるカタカナの割合であるか、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片におけるひらがなの割合であるか、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片における漢字とカタカナの割合であるか、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片における能動態又は受動態の割合であるか、
    上記断片は少なくとも1個の文であり、断片の特徴量はその断片における構文木の深さであるか、
    の何れかである外れ値箇所抽出装置。
  11. 請求項2から10の何れかの外れ値箇所抽出装置において、
    上記抽出された外れ値箇所の断片と同様の意味を有する断片であって、上記抽出された外れ値箇所の断片の難易度よりも上記推定されたテキストの難易度クラス又は上記所定の難易度クラスに近い難易度の断片である代替表現をユーザに提示する代替表現提示部、
    を更に含む外れ値箇所抽出装置。
  12. 請求項2から10の何れかの外れ値箇所抽出装置において、
    上記抽出された外れ値箇所の断片と同様の意味を有する断片であって、上記抽出された外れ値箇所の断片の難易度よりも上記推定されたテキストの難易度クラス又は上記所定の難易度クラスに近い難易度の断片である代替表現により上記テキストの中の上記抽出された外れ値箇所の断片を置換したテキストを出力する代替表現置換提示部、
    を更に含む外れ値箇所抽出装置。
  13. 断片難易度推定部が、入力されたテキストに含まれ、上記テキストを所定の単位で分割した断片の少なくとも1つの難易度を推定する断片難易度推定ステップと、
    外れ値箇所抽出部が、上記少なくとも1つの断片の中で所定の基準以上に難易度が外れている断片を、上記テキストの外れ値箇所であると判定する及び/又は上記テキストの外れ値箇所として抽出する外れ値箇所抽出ステップと、
    を含む外れ値箇所抽出方法。
  14. 請求項1から12の何れかの外れ値箇所抽出装置の各部としてコンピュータを機能させるためのプログラム。
JP2016035300A 2016-02-26 2016-02-26 外れ値箇所抽出装置、方法及びプログラム Active JP6502279B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016035300A JP6502279B2 (ja) 2016-02-26 2016-02-26 外れ値箇所抽出装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016035300A JP6502279B2 (ja) 2016-02-26 2016-02-26 外れ値箇所抽出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017151849A true JP2017151849A (ja) 2017-08-31
JP6502279B2 JP6502279B2 (ja) 2019-04-17

Family

ID=59739873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016035300A Active JP6502279B2 (ja) 2016-02-26 2016-02-26 外れ値箇所抽出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6502279B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019212098A (ja) * 2018-06-06 2019-12-12 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
JP2022553185A (ja) * 2019-10-18 2022-12-22 サフラン エレクトロニクス アンド ディフェンス 振動数異方性に対する機械的補償を備えたセンサ
WO2023032100A1 (ja) * 2021-09-01 2023-03-09 日本電信電話株式会社 文書作成支援装置、文書作成支援方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6438876A (en) * 1987-08-05 1989-02-09 Fuji Xerox Co Ltd Language data base having speech level
JP2009032240A (ja) * 2007-06-27 2009-02-12 Nagaoka Univ Of Technology 文章の読み易さ評価システム及び文章の読み易さ評価方法
JP2009140074A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 用語難易度診断装置および用語難易度診断プログラム
JP2011013811A (ja) * 2009-06-30 2011-01-20 Konan Gakuen 単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体
US20150057996A1 (en) * 2013-08-22 2015-02-26 Ricoh Company, Ltd. Text processing apparatus and text display system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6438876A (en) * 1987-08-05 1989-02-09 Fuji Xerox Co Ltd Language data base having speech level
JP2009032240A (ja) * 2007-06-27 2009-02-12 Nagaoka Univ Of Technology 文章の読み易さ評価システム及び文章の読み易さ評価方法
JP2009140074A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 用語難易度診断装置および用語難易度診断プログラム
JP2011013811A (ja) * 2009-06-30 2011-01-20 Konan Gakuen 単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体
US20150057996A1 (en) * 2013-08-22 2015-02-26 Ricoh Company, Ltd. Text processing apparatus and text display system
JP2015041284A (ja) * 2013-08-22 2015-03-02 株式会社リコー 文章処理装置、文章表示システム、プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019212098A (ja) * 2018-06-06 2019-12-12 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
WO2019235446A1 (ja) * 2018-06-06 2019-12-12 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
JP7106999B2 (ja) 2018-06-06 2022-07-27 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
JP2022553185A (ja) * 2019-10-18 2022-12-22 サフラン エレクトロニクス アンド ディフェンス 振動数異方性に対する機械的補償を備えたセンサ
WO2023032100A1 (ja) * 2021-09-01 2023-03-09 日本電信電話株式会社 文書作成支援装置、文書作成支援方法、及びプログラム

Also Published As

Publication number Publication date
JP6502279B2 (ja) 2019-04-17

Similar Documents

Publication Publication Date Title
US9959776B1 (en) System and method for automated scoring of texual responses to picture-based items
US8577898B2 (en) System and method for rating a written document
US8706474B2 (en) Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US9164983B2 (en) Broad-coverage normalization system for social media language
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
US8630839B2 (en) Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method
US10452785B2 (en) Translation assistance system, translation assistance method and translation assistance program
KR20080021017A (ko) 텍스트 기반의 문서 비교
JPWO2016051551A1 (ja) 文章生成システム
Wanner On the relevance of syntactic and discourse features for author profiling and identification
CN105512110B (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
Zhang et al. HANSpeller++: A unified framework for Chinese spelling correction
JP6502279B2 (ja) 外れ値箇所抽出装置、方法及びプログラム
Rana et al. Detection and correction of real-word errors in Bangla language
US10515148B2 (en) Arabic spell checking error model
Sharma et al. Word prediction system for text entry in Hindi
Lee et al. Combining Mutual Information and Entropy for Unknown Word Extraction from Multilingual Code-Switching Sentences.
Kashani et al. Automatic transliteration of proper nouns from Arabic to English
CN111444318A (zh) 一种文本纠错方法
Ahn Automatically detecting authors' native language
Saharia Phone-based identification of language in code-mixed social network data
Kocher et al. Author clustering using spatium
KR101288900B1 (ko) 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템
Udagedara et al. Language model-based spell-checker for sri lankan names and addresses
Doshi et al. Normalizing text using language modelling based on phonetics and string similarity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190320

R150 Certificate of patent or registration of utility model

Ref document number: 6502279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150