JP6626917B2 - 英語の音節計算法に基づいた可読性評価方法及びシステム - Google Patents
英語の音節計算法に基づいた可読性評価方法及びシステム Download PDFInfo
- Publication number
- JP6626917B2 JP6626917B2 JP2018057837A JP2018057837A JP6626917B2 JP 6626917 B2 JP6626917 B2 JP 6626917B2 JP 2018057837 A JP2018057837 A JP 2018057837A JP 2018057837 A JP2018057837 A JP 2018057837A JP 6626917 B2 JP6626917 B2 JP 6626917B2
- Authority
- JP
- Japan
- Prior art keywords
- characters
- word
- character
- input word
- alphabet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 title claims description 45
- 238000011156 evaluation Methods 0.000 title claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 28
- 238000011425 standardization method Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 7
- HJHVQCXHVMGZNC-JCJNLNMISA-M sodium;(2z)-2-[(3r,4s,5s,8s,9s,10s,11r,13r,14s,16s)-16-acetyloxy-3,11-dihydroxy-4,8,10,14-tetramethyl-2,3,4,5,6,7,9,11,12,13,15,16-dodecahydro-1h-cyclopenta[a]phenanthren-17-ylidene]-6-methylhept-5-enoate Chemical compound [Na+].O[C@@H]([C@@H]12)C[C@H]3\C(=C(/CCC=C(C)C)C([O-])=O)[C@@H](OC(C)=O)C[C@]3(C)[C@@]2(C)CC[C@@H]2[C@]1(C)CC[C@@H](O)[C@H]2C HJHVQCXHVMGZNC-JCJNLNMISA-M 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 101100042793 Gallus gallus SMC2 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
評価方法及びシステムに関する。
指標である。この指標に基づいて、文章の難易度を客観的、迅速且つ精確に、定量的に説
明することができる。当該指標の確定は、以下の分野において需要な意義を有する。
する。英語の文章の異なる可読性指標により、幼稚園から大学院までの異なる学年の教材
における英語の文章についての選択がより科学的且つ正確となり、これにより、学年に従
って難易度及びレベルが異なる英語教材を学習することができる。現時点では、異なる学
年の英語教材における文章の難易度は、完全に編集者の主観的な判断によって決められて
おり、編集者によって、知識、能力、好み及び教育の目標が異なる。そのため、教材に選
択された英語教材は、客観的、科学的、定量的且つ統一された根拠を有せず、異なる学年
、異なる地域、異なるランク及び異なるレベルの学生のニーズを満たすことができず、学
生の学習に相応しい教材や資料を科学的にカスタマイズすることができない。
達することにより、読者や顧客をより迅速且つ広範囲に引き付けることができる。医療、
交通、公共サービス等、すべての情報が英語をメディアとして伝達されるすべての業界や
部署において、人々は可読性の高い情報ほど理解しやすく、対人コミュニケーションがよ
り迅速且つ精確になる。
ートメール、ウィーチャット(WeChat)、電子メール、ブログ、ウェブページのテキスト
、政府のオンラインレポート、ネットワークニュース、広告、パンフレット等において執
筆された文章は、可読性指標の検証を通じて可読性が高い合理的な範囲内において、より
迅速、正確且つ効率的な伝達効果を有する。
の人工知能計算は、世界でも難問の1つである。計算言語学の分野では、音節の計算は、
データ駆動(機械学習)法及び言語規則のコンパイルアルゴリズムに基づいた方法(March
and, Y. and Damper, R. I. (2000). A multi-strategy approach to improving pronunc
iation by analogy. Computational Linguistics, 26(2): 195〜219、Damper, R. I. and
Marchand, Y. (2006). Information fusion approaches to the automatic pronunciati
on of print by analogy. Information Fusion, 7: 207〜20、Marchand, Y. and Damper,
R. I. (2006). Can syllabification improve pronunciation by analogy of English.
Natural Language Processing, 13(1): 1〜24)で行われる。データ駆動法は、コストが低
く、モデリングが簡単で、実施が速いというメリットを有するが、トレーニングコーパス
のタイプ及コーパスのサイズに大きく依存しているため、1種類の文体のトレーニングモ
デルを、別のタイプの文体に正確に用いることができない。言語規則のコンパイルアルゴ
リズムに基づいた方法には、専門家の知識が必要である。しかし、専門家のレベルが異な
り、音節の編集及び計算の規則が煩雑であり、しかも繰り返してテストする必要があるた
め、現在、音節の計算規則を包括的且つ完全に纏めてコンパイルすることができる統一さ
れた方法が未だ存在せず、また、従来の方法は、異なるユーザに対してすべての規則を取
り込んでコンパイルすることができない。従って、実際の用途において、測算された可読
性指標も異なり、そのため、読者を誤解させるおそれが生じる。一方、可読性評価は、英
語を運び手とするウェイボー(weibo)、ショートメール、ウィーチャット(WeChat)、
電子メール、ブログ等での評価結果を表示しておらず、検索エンジンも、ユーザの可読性
に対する検索結果を表示する機能を有していない。
テムを提供し、英語の音節計算法を用いてユーザが読もうとする英語の文章に対して可読
性評価及び難易度の分析を行い、学生の学習に相応しい教材や資料を科学的にカスタマイ
ズすることにある。
に基づいた可読性評価方法は、ターゲット文書取得端末と標準化処理サーバと可読性コン
ピューティングサーバと可読性フィードバック端末とを含む可読性フィードバックプラッ
トフォームにおいて実現され、
所定の取得方法によってターゲット文書を取得する。句読点に基づいてターゲット文書
を文章分割して総文章数を得る。分割された各文章に正規表現によって単語分割処理を施
して、総単語数を得る、ターゲット文書取得端末が行うステップS1と、
ステップS1で得られたターゲット文書における各単語を入力語として、それぞれプリ
セット標準化方法に従って標準化処理を行い、標準化処理された複数の単語を得る、標準
化処理サーバが行うステップ2と、
ステップS2で得られたすべての標準化処理された単語を新たな入力語として、それぞ
れプリセット変換条件に従って音節数を算出する。各入力語の音節数の和を総音節数とす
る、標準化処理サーバが行うステップ3と、
前記総文章数、総単語数及び総音節数を下記2つのプリセット可読性導出式
caid Level)を計算する、可読性コンピューティングサーバが行うステップ4と、
可読性係数及びリーディング難易度係数の計算結果と、取得された目標文書とを同時に
表示して、ユーザにフィードバックする、可読性フィードバック端末が行うステップ5と
を含む。
英語検索をサポートするすべてのウェブサイトを含む検索エンジンを使用してキーワー
ドに基づいて検索し、インデックスから要件を満たしているテキストスニペット又は文書
を検索する方法1、ユーザが文書を入力する方法2、及び、その他の方法のいずれかであ
る。
されたターゲット文書又はテキストスニペットを利用して、可読性係数及びリーディング
難易度係数の計算結果を、当該ターゲット文書若しくはテキストスニペットの下方又はタ
イトルの上方に同時に表示させる。
ウィンドウの検出によってユーザが入力した目標文書を得て、且つ可読性ボタンの選択を
トリガすると、前記可読性フィードバックプラットフォームによって当該目標文書を分析
して、可読性係数及びリーディング難易度係数を計算し、これらの計算結果を、可読性フ
ィードバックプラットフォームにおけるウィンドウのタイトルの上方に自動的に表示させ
る。
変換及び語頭のプレフィックスの付加を含む。
サフィックス文字に分ける。前記要変換サフィックス文字は、サフィックス2文字、サフ
ィックス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5
つのカテゴリを含む。前記一般的なサフィックス文字については変換しない。サフィック
スn文字における最後のn個の文字を、対応するサフィックス変換キーに変換する。ここ
で、n=2、3、4、5、7である。
要変換プレフィックス文字に分ける。前記要変換プレフィックス文字は、プレフィックス
2文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つの
カテゴリを含む。前記一般的なプレフィックス文字については変換しない。プレフィック
スm文字における最初のm個の文字を、対応するプレフィックス変換キーに変換する。こ
こで、m=2、3、4、5である。
含まない子音アルファベットの場合、音節の出力数を入力語の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長
が3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し
、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれ
か条件で処理を行うものであって
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。そして、置換語における
母音列の数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を
、1つの母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベット
によって分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」
の数量に関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り
、ただ1つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置
換語の最後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を
、母音列の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音
節数を母音列の数に等しくする。
ットzまでの任意のアルファベットであり、2番目の文字と3番目の文字との組合せは、
「ia」、「io」、「iu」、「ae」、「eo」及び「iy」のうちの1つである。
拡張語列は4文字で構成されている。拡張語列の1番目の文字、2番目の文字及び4番目
の文字は、対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ
同じであるものとして特徴語列が定義される。3番目の文字が特徴語列の1番目の文字と
同じであるものとして特徴語列が定義される。
としてのシステムをさらに提供する。前記アプリケーションプラットフォームは、ターゲ
ット文書取得端末と標準化処理サーバと可読性コンピューティングサーバと可読性フィー
ドバック端末とを含む。前記ターゲット文書取得端末は、所定の取得方法によりターゲッ
ト文書を取得して、当該ターゲット文書を前記標準化処理サーバに送信するものであって
、
ターゲット文書に対して句読点に基づいて文章分割処理を行い且つ分割された各文章に
正規表現によって単語分割処理を施す前処理を行い、ターゲット文書が前処理された後に
取得されたターゲット文書の総文章数及び総単語数を、前記可読性コンピューティングサ
ーバに送信する。
ターゲット文書に対して標準化処理を行い、プリセット変換条件に従って総音節数を取得
して、当該総音節数を可読性コンピューティングサーバに送信するために用いられるもの
であって、標準化処理された単語を得る標準化処理モジュール、及び、標準化処理された
単語についてプリセット変換条件に従って音節数を算出するためのスキャン変換モジュー
ルを含む。各入力語の音節数の和を総音節数とする。
るために、前記総文章数、総単語数及び総音節数を、可読性係数(Flesch Readability)
の計算式及びリーディング難易度係数(Flesch-Kincaid Level)の計算式を含むプリセッ
ト可読性導出式
、可読性係数及びリーディング難易度係数の計算結果と取得されたターゲット文書とを同
時に表示してユーザにフィードバックするために用いられる。
フィックスの付加を含むプリセット標準化方法が設定されている。
サフィックス文字に分ける。前記要変換サフィックス文字は、サフィックス2文字、サフ
ィックス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5
つのカテゴリを含む。前記一般的なサフィックス文字は変換されない。サフィックスn文
字における最後のn個の文字を、対応するサフィックス変換キーに変換する。ここで、n
=2、3、4、5、7である。
要変換プレフィックス文字に分ける。要変換プレフィックス文字は、プレフィックス2文
字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカテ
ゴリを含む。前記一般的なプレフィックス文字については変換しない。プレフィックスm
文字における最初のm個の文字は、対応するプレフィックス変換キーに変換される。ここ
で、m=2、3、4、5である。
記プリセット変換条件は、
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語
の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が
3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し
、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれ
か条件で処理を行うものである。
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。置換語における母音列の
数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの
母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベットによって
分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に
関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1
つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置換語の最
後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を、母音列
の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音節数を母
音列の数に等しくする。
ットzまでの任意のアルファベットであり、2番目の文字と3番目の文字との組合せは、
「ia」、「io」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるも
のとして特徴語列が定義される。4文字で構成されており、1番目の文字、2番目の文字
及び4番目の文字が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字と
それぞれ同じであり、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡
張語列が定義される。
性評価方法に対して、少なくとも以下のメリットを有する。
あるか、又はネットワークを介して検索された文書であるかに関わらず、当該方法によっ
て可読性分析を行い、可読性分析の結果を、ディスプレイ端末を介して直接表示すること
ができ、ユーザに直感的にフィードバックすることができる。
により、可読性計算の実現性が向上すると共に、計算プロセスが簡単で、実施しやすく、
計算結果が正確であるため、当該システムを多くの電子学習製品に容易に普及させて使用
することができる。
説明でより明白になり、又は、本発明の実施から明らかになる。
についての説明において明白に且つ理解しやすくなる。
おり、同じ又は類似の参照番号は、同一若しくは類似の素子、又は、同一若しくは類似の
機能を有する素子を示す。以下、参考図面を介して説明する実施形態は、本発明を説明す
るための例示的なものであり、本発明を限定するものとして解釈されるべきではない。
法は、以下のステップを含む。
n mark)に基づいてターゲット文書を文章分割して総文章数を得る。分割された各文章に
正規表現によって単語分割処理を施して、総単語数を得る。ターゲット文書の取得方法は
、以下のいずれであってもよいが、これらに限定されない。
を満たしている文書を検索する。
処理は、音節計算の精度向上の重要な部分である。「The CMU(米国カーネギー・メロン
・大学)Pronouncing Dictionary、オックスフォード現代英英辞典(Oxford Advanced En
glish Dictionary)及びウェブスター辞典(Webster's Dictionary)」という3大辞書に
ついての繰り返しテストに基づくと、標準化処理が行われていない場合における語彙の音
節の計算精度は、約48%〜65%に過ぎないが、標準化処理後の計算精度は90%に達
することができる。標準化処理とは、複雑で不規則なアルファベットの組合せを、識別及
び計算しやすい規則に変換することである。単語分割後の各単語又は検索で見つかったタ
ーゲット文書の各単語を入力単語とみなし、各ステップで標準化変換された語彙を次のス
テップの入力語とする。
れぞれプリセット標準化方法に従って標準化処理を行い、標準化処理された複数の単語を
得る。プリセット標準化方法は、サフィックス文字(接尾辞)の変換及び語基の前へのプ
レフィックス(接頭辞)の付加を含む。
クス文字に分ける。前記要変換サフィックス文字は、サフィックス2文字、サフィックス
3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカテ
ゴリを含む。前記一般的なサフィックス文字については変換しない。サフィックスn文字
における最後のn個(n=2、3、4、5、7)の文字を、対応するサフィックス変換キ
ーに変換する。サフィックス変換キーは、「子音」、「子音+母音+子音」、「子音+母
音+子音+母音」、「母音+子音+母音+子音」又は「母音+子音+母音+子音+母音」
の形式である。
SCII)におけるアポストロフィーを示す。)、「ses」、「sms」、「ces」
、「hes」、「ges」、「xes」、「yer」、「ile」、「cre」、「el
y」、「h#39s」又は「ole」である場合、これらの3文字を「dad」に変換す
る。ここで、「dad」(即ち、「子音+母音+子音」)は、これらの語尾3文字に対応
するサフィックス変換キーである。入力語の最後の3文字が「tua」又は「ual」で
ある場合、これらの3文字から変換された変換キーを「tada」(即ち、「子音+母音
+子音+母音」)とする。入力語の最後の3文字がフランス語系のサフィックス「ier
」又は「que」である場合、これらの文字を「k」(即ち、「子音」)に変換する。入
力語の最後の3文字が「les」であって、且つ最後から4番目の文字が「a」、「e」
、「i」、「o」、「u」及び「y」のうちの1つである場合、「les」を削除して、
語尾に接尾辞「son」を追加する。
」又は「uations」である場合、これらの7文字を「adada」に変換する。
子音+母音+子音」)に変換する。
ans」である場合、これらの5文字を「dob」に変換する。
「uous」又は「uate」である場合、これらの4文字を「adad」に変換する。
入力語の最後の4文字が「sm#39s」、「cian」、「eous」、「bled」
、「gled」、「dled」、「kled」、「pled」、「tled」又は「fl
ed」である場合、これらの4文字を「dob」に変換する。入力語の最後の4文字が「
sion」、「ious」、「oate」、「ce#39s」又は「cial」である場
合、これらの4文字を「dob」に変換する。
レフィックス文字に分ける。要変換プレフィックス文字は、プレフィックス2文字、プレ
フィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカテゴリを含
む。一般的なプレフィックス文字については変換しない。プレフィックスm文字における
最初のm個(m=2、3、4、5)の文字を、対応するプレフィックス変換キーに変換す
る。プレフィックス変換キーは、「子音+母音+子音」、「子音+母音+子音+母音」、
「子音+母音+子音+母音+子音」又は「子音+母音+子音+母音+子音+母音」の形式
である。
「子音+母音+子音+母音」)に変換する。
に変換する。入力語の最初の5文字が「heroi」である場合、これらの5文字を「d
idada」に変換する。
れらの4文字を「didod」に変換する。
れらの3文字を「rera」に変換する。
て、それぞれプリセット変換条件に従って音節数を算出する。各入力語の音節数の和を総
音節数とする。
プリセット変換条件は、以下の通りである。
の語長に等しくする。
3未満の場合、音節数を1として出力する。
3に等しい場合、以下の条件で処理する。
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力す
る。
ルファベットの「y」である場合、音節数を3として出力する。
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。そして、置換語における
母音列の数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を
、1つの母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベット
によって分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」
の数量に関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り
、ただ1つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置
換語の最後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を
、母音列の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音
節数を母音列の数に等しいものとする。
任意のアルファベットであり、2番目の文字と3番目の文字との組合せが「ia」、「i
o」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるものとして特徴語
列が定義される。4文字で構成されており、1番目の文字、2番目の文字及び4番目の文
字が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ同じで
あり、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡張語列が定義さ
れる。
列であり、拡張語列「bibo」に置換されて置換語「abibocoen」が得られる
。「abibocoen」に「a」、「i」、「o」及び「oe」という4つの母音列が
含まれ、且つ最初の2文字が「mc」でないため、入力語「abiocoen」の音節数
は4である。
入力語とは同じである。「McGovern」に「o」及び「e」という2つの母音列が
含まれ、且つ最初の2文字が「mc」であるため、入力語「McGovern」の音節数
は3である。
同じであり、且つ「grime」の最後の1文字は「e」である。「e」を削除した後の
新しい置換語は「grim」であり、「grim」に「i」という1つの母音列のみが含
まれているため、入力語「girme」の音節数は1である。
caid Level)を計算する。
ィング難易度係数の計算結果と、取得された目標文書とを同時に表示して、ユーザにフィ
ードバックする。表示方法は、以下の数種類を含むが、これらに限定されない。
スニペット(snippet)を利用して、可読性係数及びリーディング難易度係数の計算結果
を、当該ターゲット文書若しくはテキストスニペットの下方又はタイトルの上方に同時に
表示させる。
ゲット文書を入力し、可読性ボタンを選択する。可読性係数及びリーディング難易度係数
の計算結果を、可読性フィードバックプラットフォームにおけるウィンドウのタイトルの
上方に自動的に表示させる。
書取得端末1、標準化処理サーバ2、可読性コンピューティングサーバ3及び可読性フィ
ードバック端末4を含む。
ト文書を標準化処理サーバに送信するために用いられる。ターゲット文書取得端末は、タ
ーゲット文書に対して前処理を行い、句読点に基づいて文章分割処理を行い、分割された
各文章に正規表現によって単語分割処理を施す。ターゲット文書取得端末は、ターゲット
文書が前処理された後に取得されたターゲット文書の総文章数及び総単語数を、可読性コ
ンピューティングサーバに送信する。
、及びスキャン変換モジュールを含む。プリセット標準化方法は、サフィックス文字の変
換及び語頭のプレフィックスの付加を含む。
クス文字に分ける。要変換サフィックス文字は、サフィックス2文字、サフィックス3文
字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカテゴリ
を含む。一般的なサフィックス文字については変換しない。サフィックスn文字における
最後のn個の文字を、対応するサフィックス変換キーに変換する。ここで、n=2、3、
4、5、7である。語頭にプレフィックスを付加する。入力語を一般的なプレフィックス
文字及び要変換プレフィックス文字に分ける。要変換プレフィックス文字は、プレフィッ
クス2文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4
つのカテゴリを含む。一般的なプレフィックス文字については変換しない。プレフィック
スm文字における最初のm個の文字を、対応するプレフィックス変換キーに変換する。こ
こで、m=2、3、4、5である。
変換条件は、以下の通りである。
の語長に等しくする。
3未満の場合、音節数を1として出力する。
3に等しい場合、以下の条件で処理する。
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベ
ットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力す
る。
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はア
ルファベットの「y」である場合、音節数を3として出力する。
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する。
3より大きい場合、入力語を語頭から語尾へスキャンする。入力語に特徴語列が存在する
場合、特徴語列を対応する拡張語列に置き換えて置換語を得る。置換語における母音列の
数を計算する。1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの
母音列(即ち、置換語における複数の母音列は、yを除いた子音アルファベットによって
分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に
関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1
つの母音列である)とする。置換語の最後の1文字が「e」である場合、当該置換語の最
後の1文字を削除する。置換語の最初の2文字が「mc」である場合、音節数を、母音列
の数に1を加えたものとする。置換語の最初の2文字が「mc」でない場合、音節数を母
音列の数に等しいものとする。
ために、総文章数、総単語数及び総音節数を、可読性係数(Flesch Readability)の計算
式及びリーディング難易度係数(Flesch-Kincaid Level)の計算式を含むプリセット可読
性導出式
ターゲット文書に取り込み、表示装置を介してユーザにフィードバックするために用いら
れる。
いが、これらに限定されない。方法1:検索エンジンを使用してキーワードに基づいて検
索し、インデックスから要件を満たしている文書を検索する。方法2:ユーザは文書を入
力する。方法3:紙文書をスキャンする等の手段によって電子文書を形成する。ユーザ自
身で入力した文書であるか、走査装置によってスキャンされた電子文書であるか、又はネ
ットワークを介して検索された文書であるかに関わらず、当該方法によって可読性分析を
行い、可読性分析の結果を、ディスプレイ端末を介して直接表示することができ、ユーザ
に直感的にフィードバックすることができる。
る文字入力の方法)によってターゲット文書を取得するものである。図に表示されている
ターゲット文書は、意識の流れの巨匠であるアイルランドの作家ジェイムズ・ジョイス(
James Joyce)による『フィネガンズ・ウェイク』(Finnegans Wake)という有名な作品
から抜粋された最初の2つの段落である。この作品は、英語圏で最も曖昧でわかりにくい
小説として西洋で広く認められている小説である。なぜならば、作者が自作単語、アンコ
モン言葉、奇妙な言葉、古代のスラング、混成語、長い単語等を多数使用しているからで
ある。これらの単語は、英語辞書に収録されていないか稀に収録されているため、辞書の
音節を調べる通常の方法では可読性を計算することができない。本発明に係る標準化処理
方法及びプリセット変換条件によって、可読性の計算結果を得ることができる。また、可
読性の式及びターゲット文書を可読性評価システムにおける表示窓に同時に表示すること
ができる。
フェイス図である。図4は、可読性計算結果及び元の文書を同時に表示する他のインター
フェイス図である。本発明に採用されているこの2つの図は、ツイッター(Twitter)(
登録商標)においてキーワード「climate」を検索した後にフィードバックされた結果で
ある。可読性指標は、検索結果の各ツイート又はミニブログに取り込まれて、ユーザにフ
ィードバックされる。ツイッターがインスタントメッセンジャーのソーシャルツールであ
るため、ツイートの言語の特徴として、ネット用語や略語が多く、ツイートにインターネ
ットアドレスが混在し、自作単語や口語も多いため、多くの語彙は、英語辞書にないか収
録が少なく、辞書の音節を調べる通常の方法では可読性を計算することができない。本発
明に係る方法を採用して、キーワード「climate」に関連するツイートを検索すれば、可
読性コンピューティングサーバは、各ツイートの可読性を計算し、計算された可読性係数
及びリーディング難易度係数と、検索された各ツイートとを同時に表示する。例えば、図
3のタイトルが「Pure Climate Skeptic」であるツイートは、可読性係数が21.8であ
り、リーディング難易度係数が34.8である。
英語で検索可能なすべての検索サイト、ネットワークプラットフォーム、ネットワークデ
ータベースを示す。一般的なものとして、ツイッター、グーグル(Google)、バイドゥ(
Baidu)、サンリューリン検索(360 Search)、有道(youdao)検索等がある。
づいた方法及び規則に基づいた方法という2つの方法から導かれたものである。データ駆
動の方法は、トレーニングデータに対する統計に由来し、トレーニングデータのサイズや
タイプに大きく依存している。トレーニングデータに基づいて確立されたモデルは、トレ
ーニングデータのレベルと同様なターゲットデータのみ予測することができる。ターゲッ
トデータがモデルデータと大きく異なる場合、モデルの予測精度は大幅に低下する。規則
に基づいた方法は、専門家の知識に由来し、言語学者の長年の、高度に概念化且つ統一さ
れた、言語現象に対する包括的な経験の概要に基づいたものである。本発明の規則は、3
大英語辞書に基づいて確立されたものである。本発明は、高い汎用性及び様々なテキスト
への適合性を有し、アプリケーションの実行方法が簡単であり、様々なタイプのモデルに
対してトレーニングする必要がなく、拡張性が高く、スピードが速く、様々なタイプ及び
サイズのテキストに適用することができる。
る。3大英語辞書に対してテストを行った後、音節数を計算する正確率はそれぞれ、The
CMU Pronouncing Dictionaryが92%、オックスフォード現代英英辞典が90%、ウェブ
スター辞典が90%である。
「具体例」又は「いくつかの例示」等の参考用語についての記載は、実施形態又は例示と
併せて説明する具体的な特性、構造、材料又は特徴は、本発明の少なくとも1つの実施形
態又は例示に含まれている。本明細書において、上記の用語に対する例示的な表現は、必
ずしも同一実施形態又は同一例示を示しているものではない。また、説明された具体的な
特性、構造、材料又は特徴は、任意の1つ又は複数の実施形態若しくは例示において適切
な形態で結合され得る。
Claims (2)
- 英語の音節計算法に基づいた可読性評価方法であって、ターゲット文書取得端末と標準化処理サーバと可読性コンピューティングサーバと可読性フィードバック端末とを含む可読性フィードバックプラットフォームにおいて実現され、
所定の取得方法によってターゲット文書を取得し、句読点に基づいてターゲット文書を文章に分割して総文章数を得て、分割された各文章に正規表現によって単語分割処理を施して、総単語数を得る、ターゲット文書取得端末が行うステップS1と、
ステップS1で得られたターゲット文書における各単語を入力語として、それぞれプリセット標準化方法に従って標準化処理を行い、標準化処理された複数の単語を得る、標準化処理サーバが行うステップ2と、
ステップS2で得られたすべての標準化処理された単語を新たな入力語として、それぞれプリセット変換条件に従って音節数を算出し、各入力語の音節数の和を総音節数とする、標準化処理サーバが行うステップ3と、
総文章数、総単語数及び総音節数をプリセット可読性導出式
可読性係数及びリーディング難易度係数の計算結果と、取得された目標文書とを同時に表示して、ユーザにフィードバックする、可読性フィードバック端末が行うステップ5とを含み、
前記所定の取得方法は、
英語検索をサポートするすべての検索エンジンを使用してキーワードに基づいて検索し、インデックスから要件を満たしているテキストスニペット又は文書を検索する方法1、ユーザが文書を入力する方法2、及び、その他の方法のいずれかであり、
ステップS1において方法1を用いた場合には、検索エンジン及びキーワードによって検索されたターゲット文書又はテキストスニペットを利用して、可読性係数及びリーディング難易度係数の計算結果を、当該ターゲット文書若しくはテキストスニペットの下方又はタイトルの上方に同時に表示させ、
ステップS1において方法2を用いた場合には、可読性フィードバックプラットフォームのウィンドウの検出によってユーザが入力した目標文書を得て、且つ可読性選択ボタンをトリガすると、前記可読性フィードバックプラットフォームによって当該目標文書を分析して、可読性係数及びリーディング難易度係数を計算し、これらの計算結果を、可読性フィードバックプラットフォームにおけるウィンドウのタイトルの上方に表示させ、
ステップS2における前記プリセット標準化方法は、サフィックス文字の変換及び語頭のプレフィックスの付加を含み、
(A)前記サフィックス文字の変換において、入力語を一般的なサフィックス文字及び要変換サフィックス文字に分け、要変換サフィックス文字は、サフィックス2文字、サフィックス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカテゴリを含み、一般的なサフィックス文字については変換せず、サフィックスn文字(n=2、3、4、5、7)における最後のn個の文字を、対応するサフィックス変換キーに変換し、
入力語の最後の3文字が、「s#39s」(#39は、ASCIIにおけるアポストロフィーを示す。以下同様)、「ses」、「sms」、「ces」、「hes」、「ges」、「xes」、「yer」、「ile」、「cre」、「ely」、「h#39s」又は「ole」である場合、これらの3文字を「dad」に変換し、
入力語の最後の3文字が「tua」又は「ual」である場合、これらの3文字から変換された変換キーを「tada」とし、
入力語の最後の3文字がフランス語系のサフィックス「ier」又は「que」である場合、これらの文字を「k」に変換し、
入力語の最後の3文字が「les」であって、且つ最後から4番目の文字が「a」、「e」、「i」、「o」、「u」及び「y」のうちの1つである場合、「les」を削除して、語尾に接尾辞「son」を追加し、
入力語の最後の7文字が「eations」、「iations」、「oations」又は「uations」である場合、これらの7文字を「adada」に変換し、
入力語の最後の2文字が「sm」である場合、これらの2文字を「dob」に変換し、
入力語の最後の5文字が「sions」、「sians」、「cians」又は「tians」である場合、これらの5文字を「dob」に変換し、
入力語の最後の4文字が「eate」、「iate」、「oate」、「vour」、「uous」又は「uate」である場合、これらの4文字を「adad」に変換し、
入力語の最後の4文字が「sm#39s」、「cian」、「eous」、「bled」、「gled」、「dled」、「kled」、「pled」、「tled」又は「fled」である場合、これらの4文字を「dob」に変換し、
入力語の最後の4文字が「sion」、「ious」、「oate」、「ce#39s」又は「cial」である場合、これらの4文字を「dob」に変換し、
(B)前記語頭のプレフィックスの付加において、入力語を一般的なプレフィックス文字及び要変換プレフィックス文字に分け、前記要変換プレフィックス文字は、プレフィックス2文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカテゴリを含み、前記一般的なプレフィックス文字については変換せず、プレフィックスm文字(m=2、3、4、5)における最初のm個の文字を、対応するプレフィックス変換キーに変換し、
入力語の最初の2文字が「io」である場合、これらの2文字を「dido」に変換し、
入力語の最初の5文字が「coinc」である場合、これらの5文字を「didod」に変換し、
入力語の最初の5文字が「heroi」である場合、これらの5文字を「didada」に変換し、
入力語の最初の4文字が「nois」、「goin」又は「voic」である場合、これらの4文字を「didod」に変換し、
入力語の最初の3文字が「rea」であり、且つ入力語の語長が4より大きい場合、これらの3文字を「rera」に変換し、
ステップS3におけるプリセット変換条件は、
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれか条件で処理を行うものであって、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が3より大きい場合、入力語を語頭から語尾へスキャンし、入力語に特徴語列が存在する場合、特徴語列を対応する拡張語列に置き換えて置換語を得て、置換語における母音列の数を計算し、
1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの母音列(即ち置換語における複数の母音列は、yを除いた子音アルファベットによって分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1つの母音列である)とし、置換語の最後の1文字が「e」である場合、当該置換語の最後の1文字を削除し、置換語の最初の2文字が「mc」である場合、音節数を、母音列の数に1を加えたものとし、置換語の最初の2文字が「mc」でない場合、音節数を母音列の数に等しいものとし、
3文字から構成され、1番目の文字が、アルファベットaからアルファベットzまでの任意のアルファベットであり、2番目の文字と3番目の文字との組合せが「ia」、「io」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるものとして特徴語列が定義され、4文字で構成されており、1番目の文字、2番目の文字及び4番目の文字が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ同じであり、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡張語列が定義されることを特徴とする英語の音節計算法に基づいた可読性評価方法。 - ターゲット文書取得端末と標準化処理サーバと可読性コンピューティングサーバと可読性フィードバック端末とを含み、
前記ターゲット文書取得端末は、所定の取得方法によりターゲット文書を取得して、当該ターゲット文書を前記標準化処理サーバに送信するものであって、ターゲット文書に対して句読点に基づいて文章分割処理を行い且つ分割された各文章に正規表現によって単語分割処理を施す前処理を行い、ターゲット文書が前処理された後に取得されたターゲット文書の総文章数及び総単語数を、前記可読性コンピューティングサーバに送信し、
前記標準化処理サーバは、ターゲット文書を読み取り、プリセット標準化方法に従ってターゲット文書に対して標準化処理を行い、プリセット変換条件に従って総音節数を取得して、当該総音節数を可読性コンピューティングサーバに送信するために用いられるものであって、標準化処理された単語を得る標準化処理モジュール、及び、標準化処理された単語についてプリセット変換条件に従って音節数を算出するためのスキャン変換モジュールを含み、各入力語の音節数の和を総音節数とし、
前記可読性コンピューティングサーバは、可読性係数及びリーディング難易度係数を得るために、前記総文章数、総単語数及び総音節数を、可読性係数(Flesch Readability)の計算式及びリーディング難易度係数(Flesch-Kincaid Level)の計算式を含むプリセット可読性導出式
前記可読性フィードバック端末は、ディスプレイにおいてアクティブウィンドウとして、可読性係数及びリーディング難易度係数の計算結果と取得されたターゲット文書とを同時に表示してユーザにフィードバックするために用いられ、
前記標準化処理モジュールには、サフィックス文字の変換及び語頭のプレフィックスの付加を含むプリセット標準化方法が設定されており、
(A)前記サフィックス文字の変換において、入力語を一般的なサフィックス文字及び要変換サフィックス文字に分け、要変換サフィックス文字は、サフィックス2文字、サフィックス3文字、サフィックス4文字、サフィックス5文字及びサフィックス7文字の5つのカテゴリを含み、一般的なサフィックス文字については変換せず、サフィックスn文字(n=2、3、4、5、7)における最後のn個の文字を、対応するサフィックス変換キーに変換し、
入力語の最後の3文字が、「s#39s」(#39は、ASCIIにおけるアポストロフィーを示す。以下同様)、「ses」、「sms」、「ces」、「hes」、「ges」、「xes」、「yer」、「ile」、「cre」、「ely」、「h#39s」又は「ole」である場合、これらの3文字を「dad」に変換し、
入力語の最後の3文字が「tua」又は「ual」である場合、これらの3文字から変換された変換キーを「tada」とし、
入力語の最後の3文字がフランス語系のサフィックス「ier」又は「que」である場合、これらの文字を「k」に変換し、
入力語の最後の3文字が「les」であって、且つ最後から4番目の文字が「a」、「e」、「i」、「o」、「u」及び「y」のうちの1つである場合、「les」を削除して、語尾に接尾辞「son」を追加し、
入力語の最後の7文字が「eations」、「iations」、「oations」又は「uations」である場合、これらの7文字を「adada」に変換し、
入力語の最後の2文字が「sm」である場合、これらの2文字を「dob」に変換し、
入力語の最後の5文字が「sions」、「sians」、「cians」又は「tians」である場合、これらの5文字を「dob」に変換し、
入力語の最後の4文字が「eate」、「iate」、「oate」、「vour」、「uous」又は「uate」である場合、これらの4文字を「adad」に変換し、
入力語の最後の4文字が「sm#39s」、「cian」、「eous」、「bled」、「gled」、「dled」、「kled」、「pled」、「tled」又は「fled」である場合、これらの4文字を「dob」に変換し、
入力語の最後の4文字が「sion」、「ious」、「oate」、「ce#39s」又は「cial」である場合、これらの4文字を「dob」に変換し、
(B)前記語頭のプレフィックスの付加において、入力語を一般的なプレフィックス文字及び要変換プレフィックス文字に分け、前記要変換プレフィックス文字は、プレフィックス2文字、プレフィックス3文字、プレフィックス4文字、プレフィックス5文字の4つのカテゴリを含み、前記一般的なプレフィックス文字については変換せず、プレフィックスm文字(m=2、3、4、5)における最初のm個の文字を、対応するプレフィックス変換キーに変換し、
入力語の最初の2文字が「io」である場合、これらの2文字を「dido」に変換し、
入力語の最初の5文字が「coinc」である場合、これらの5文字を「didod」に変換し、
入力語の最初の5文字が「heroi」である場合、これらの5文字を「didada」に変換し、
入力語の最初の4文字が「nois」、「goin」又は「voic」である場合、これらの4文字を「didod」に変換し、
入力語の最初の3文字が「rea」であり、且つ入力語の語長が4より大きい場合、これらの3文字を「rera」に変換し、
前記スキャン変換モジュールには、プリセット変換条件が設定されており、前記プリセット変換条件は、
入力語のすべてが「y」を含まない子音アルファベットの場合、音節の出力数を入力語の語長に等しくし、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が3未満の場合、音節数を1として出力し、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が3に等しい場合には、
(1)1番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベットの「y」であり、2番目が子音アルファベットである場合、音節数を2として出力し、
(2)1番目、2番目及び3番目の文字が、いずれも任意の母音アルファベット又はアルファベットの「y」である場合、音節数を3として出力し、
(3)上記の(1)及び(2)以外の場合、音節数を1として出力する、といういずれか条件で処理を行うものであって、
入力語に任意の母音アルファベット又はアルファベットの「y」が含まれ、且つ語長が3より大きい場合、入力語を語頭から語尾へスキャンし、入力語に特徴語列が存在する場合、特徴語列を対応する拡張語列に置き換えて置換語を得て、置換語における母音列の数を計算し、
1つ又は結合された複数の「a、e、i、o、u若しくはy」を、1つの母音列(即ち置換語における複数の母音列は、yを除いた子音アルファベットによって分離された複数の文字列であり、結合される「a、e、i、o、u若しくはy」の数量に関わらず、yを除いたいずれかの子音アルファベットが真ん中に存在しない限り、ただ1つの母音列である)とし、置換語の最後の1文字が「e」である場合、当該置換語の最後の1文字を削除し、置換語の最初の2文字が「mc」である場合、音節数を、母音列の数に1を加えたものとし、置換語の最初の2文字が「mc」でない場合、音節数を母音列の数に等しいものとし、
3文字から構成され、1番目の文字が、アルファベットaからアルファベットzまでの任意のアルファベットであり、2番目の文字と3番目の文字との組合せは、「ia」、「io」、「iu」、「ae」、「eo」及び「iy」のうちの1つであるものとして特徴語列が定義され、4文字で構成されており、1番目の文字、2番目の文字及び4番目の文字が対応する特徴語列の1番目の文字、2番目の文字及び3番目の文字とそれぞれ同じであり、3番目の文字が特徴語列の1番目の文字と同じであるものとして拡張語列が定義されることを特徴とする英語の音節計算法に基づいた可読性評価システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710188588.1A CN106897272B (zh) | 2017-03-27 | 2017-03-27 | 基于英语音节计算方法在可读性评测中的应用方法与平台 |
CN201710188588.1 | 2017-03-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018163660A JP2018163660A (ja) | 2018-10-18 |
JP6626917B2 true JP6626917B2 (ja) | 2019-12-25 |
Family
ID=59193828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018057837A Expired - Fee Related JP6626917B2 (ja) | 2017-03-27 | 2018-03-26 | 英語の音節計算法に基づいた可読性評価方法及びシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6626917B2 (ja) |
CN (1) | CN106897272B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI702537B (zh) * | 2018-09-28 | 2020-08-21 | 智齡科技股份有限公司 | 基於語彙分析之智慧護理文本生成系統以及使用其之智慧護理資訊平台 |
CN109522560B (zh) * | 2018-11-27 | 2020-05-12 | 龙马智芯(珠海横琴)科技有限公司 | 用于单词记忆的方法、计算机可读存储介质及计算机设备 |
US11380444B2 (en) | 2019-07-31 | 2022-07-05 | Institute for Healthcare Advancement | Method for improving health literacy of patient materials |
CN112115701B (zh) * | 2020-09-07 | 2021-07-09 | 北京语言大学 | 一种新闻阅读文本可读性评价方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4773009A (en) * | 1986-06-06 | 1988-09-20 | Houghton Mifflin Company | Method and apparatus for text analysis |
JPH09134358A (ja) * | 1995-11-13 | 1997-05-20 | Oki Electric Ind Co Ltd | 機械翻訳装置 |
US20100153425A1 (en) * | 2008-12-12 | 2010-06-17 | Yury Tulchinsky | Method for Counting Syllables in Readability Software |
CN101814066A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 文本阅读难度判断设备及其方法 |
US10521511B2 (en) * | 2010-12-02 | 2019-12-31 | Accessible Publishing Systems Pty Ltd | Text conversion and representation system |
CN103530280A (zh) * | 2012-07-03 | 2014-01-22 | 宋曜廷 | 以数据降维法及非线性算则建构中文文本可读性模型的系统及其方法 |
JP5922832B1 (ja) * | 2015-09-07 | 2016-05-24 | 信也 赤木 | 文章評価装置、文章評価方法およびプログラム |
CN105630940B (zh) * | 2015-12-21 | 2019-03-22 | 天津大学 | 一种基于可读性指标的信息检索方法 |
-
2017
- 2017-03-27 CN CN201710188588.1A patent/CN106897272B/zh active Active
-
2018
- 2018-03-26 JP JP2018057837A patent/JP6626917B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN106897272B (zh) | 2020-07-07 |
JP2018163660A (ja) | 2018-10-18 |
CN106897272A (zh) | 2017-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
JP6626917B2 (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
CN105868175A (zh) | 摘要生成方法及装置 | |
Islam et al. | Text readability classification of textbooks of a low-resource language | |
Bestgen | Comparing lexical bundles across corpora of different sizes: The Zipfian problem | |
KR102552811B1 (ko) | 클라우드 기반 문법 교정 서비스 제공 시스템 | |
Ljubešić et al. | Predicting the level of text standardness in user-generated content | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
Eika et al. | Assessing the reading level of web texts for WCAG2. 0 compliance—can it be done automatically? | |
JP2020140692A (ja) | 文抽出システム、文抽出方法、及びプログラム | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
CN107870900B (zh) | 提供翻译文的方法、装置以及记录介质 | |
Han et al. | Chinese character decomposition for neural MT with multi-word expressions | |
Lotz et al. | Omission and other sins: Tracking the quality of online machine translation output over four years | |
da Rocha et al. | A text as unique as a fingerprint: Text analysis and authorship recognition in a Virtual Learning Environment of the Unified Health System in Brazil | |
Kgolo et al. | The role of morphological structure in the processing of complex forms: Evidence from Setswana deverbative nouns | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
Bier et al. | Adaptive math-to-speech interface | |
CN113704472B (zh) | 基于主题记忆网络的仇恨和攻击性言论识别方法及系统 | |
Puspitasari et al. | Identify Fake Author in Indonesia Crime Cases: A Forensic Authorsip Analysis Using N-gram and Stylometric Features | |
CN106776533B (zh) | 用于分析一段文本的方法和系统 | |
Balluff et al. | Automatically Finding Actors in Texts: A Performance Review of Multilingual Named Entity Recognition Tools | |
CN114398492A (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN111259159B (zh) | 数据挖掘方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180502 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180502 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6626917 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |