JP2018538615A - 文章を解析するための方法およびシステム - Google Patents

文章を解析するための方法およびシステム Download PDF

Info

Publication number
JP2018538615A
JP2018538615A JP2018525475A JP2018525475A JP2018538615A JP 2018538615 A JP2018538615 A JP 2018538615A JP 2018525475 A JP2018525475 A JP 2018525475A JP 2018525475 A JP2018525475 A JP 2018525475A JP 2018538615 A JP2018538615 A JP 2018538615A
Authority
JP
Japan
Prior art keywords
block units
computer
implemented method
sentence
unique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018525475A
Other languages
English (en)
Other versions
JP6693032B2 (ja
Inventor
フン リョン、ワイ
フン リョン、ワイ
Original Assignee
クリサス インテレクチュアル プロパティーズ リミテッド
クリサス インテレクチュアル プロパティーズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クリサス インテレクチュアル プロパティーズ リミテッド, クリサス インテレクチュアル プロパティーズ リミテッド filed Critical クリサス インテレクチュアル プロパティーズ リミテッド
Publication of JP2018538615A publication Critical patent/JP2018538615A/ja
Application granted granted Critical
Publication of JP6693032B2 publication Critical patent/JP6693032B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本発明は、文章を解析するためのコンピュータ実装方法を提供する。方法は、文章の1つまたは複数の文字を、各々が少なくとも1つの文字を含む1つまたは複数のブロック単位に切断する段階を備える。方法は、1つまたは複数のブロック単位を1つまたは複数の一意的なブロック単位に分類する段階と、当該1つまたは複数の一意的なブロック単位を等級付けデータベースと比較することにより、当該1つまたは複数の一意的なブロック単位の各々に等級を割り当てる段階とを備える。1つまたは複数の一意的なブロック単位の各々に割り当てられた等級のうち1つまたは複数に基づいて、文章の全体的等級が決定されてよい。文章の全体的等級は、文章をより大きなブロック単位へと連続的に切断すること、および、係るブロック単位を連続的に処理することから導き出されてよい。

Description

本発明は、文章を解析するためのコンピュータ実装方法およびシステムに関する。
情報およびコンピュータ技術の進歩は、教育を含む、我々の生活の様々な面に多大な影響をもたらしている。教室の内外両方で学習および教育するための媒体としてeラーニングリソースを使用することが世界的動向となっている。eラーニングの人気の高まりに伴い、e文書およびe教科書を含む多種多様なデジタルリソースが開発されている。
とはいうものの、従来の学習教材と同様に、教育者および親が直面している1つの困難は、eリソースが特定の教育要件または勉強要件を満たすために適切なレベルであるかどうかを評価するのが一般に難しいことである。eリソースの内容がある特定の学習目的を所望通りに果たしているかどうかを判断するのも難しい。大抵の場合は、教育者および親の経験に従ってアセスメントが行われるが、アセスメントは主観に影響され易いこともあり、よって不正確であり得る。
本発明の目的は、e文書を解析するためのコンピュータ実装方法およびシステムを提供することである。
本発明の別の目的は、既知のe文書解析製品に関連する1つもしくは複数の問題をある程度まで緩和するか、もしくは未然に防ぐこと、または、少なくとも有用な代替手段を提供することである。
上記の目的は、独立請求項の特徴の組み合わせにより達成され、従属請求項は、本発明の更なる有利な実施形態を開示する。
当業者であれば、以下の説明から本発明の他の目的を導き出すであろう。従って、目的に関する上記の記述は包括的でなく、本発明の多くの目的のうち幾つかを示すのに役立つに過ぎない。
一般に、本発明は文章を解析するためのコンピュータ実装方法を提供する。方法は、文章の1つまたは複数の文字を、各々が少なくとも1つの文字を含む1つまたは複数のブロック単位に切断する段階を備える。方法は、1つまたは複数のブロック単位を1つまたは複数の一意的なブロック単位に分類する段階と、当該1つまたは複数の一意的なブロック単位を等級付けデータベースと比較することにより、当該1つまたは複数の一意的なブロック単位の各々に等級を割り当てる段階とを備える。1つまたは複数の一意的なブロック単位の各々に割り当てられた等級のうち1つまたは複数に基づいて、文章の全体的等級が決定されてよい。文章の全体的等級は、文章をより大きなブロック単位へと連続的に切断すること、および、係るブロック単位を連続的に処理することから導き出されてよい。
第1の主要な態様において、本発明は、文章を解析するためのコンピュータ実装方法であって、文章の1つまたは複数の文字を、各々が少なくとも1つの文字を含む1つまたは複数のブロック単位に切断する段階と、当該1つまたは複数のブロック単位を1つまたは複数の一意的なブロック単位に分類する段階と、当該1つまたは複数の一意的なブロック単位を等級付けデータベースと比較することにより、当該1つまたは複数の一意的なブロック単位の各々に等級を割り当てる段階とを含む方法を提供する。
第2の主要な態様において、本発明は、プロセッサで実装されると第1の態様に記載の方法の段階を実装する機械可読命令を記憶したコンピュータ可読媒体を処理する方法を提供する。
第3の主要な態様において、本発明は、データを記憶するためのメモリと、コンピュータ可読命令を実行するためのプロセッサとを備えるシステムを提供する。ここで、プロセッサは、実行されているときに第1の態様に記載の方法を実装するコンピュータ可読命令により構成される。
本発明の概要は本発明を定義するのに不可欠な特徴を必ずしも全て開示しているわけではなく、本発明は開示される特徴の部分的組み合わせの中にあってよい。
以下の発明を実施するための形態からは、本発明の上記の特徴および更なる特徴が明らかになるであろう。これらは、添付図との関連で単なる例として提供されるものである。
本発明に係る、文章を解析するためのコンピュータ実装方法およびシステムを示すブロック概略図である。
以下の説明は、好ましい実施形態を単なる例として、かつ、本発明を実行に移すのに必要な特徴の組み合わせに限定することなく説明するものである。
本明細書において言及される「1つの実施形態(one embodiment)」または「ある実施形態(an embodiment)」は、その実施形態との関連で説明されるある特定の特徴、構造または特性が、本発明の少なくとも1つの実施形態に含まれていることを意味する。本明細書の様々な箇所に現れる「1つの実施形態において(in one embodiment)」という句は、必ずしも全てが同じ実施形態を指すわけでも、他の実施形態と相互排他的な別個の実施形態または代替的な実施形態を指すわけでもない。更に、幾つかの実施形態によっては示され、他の実施形態によっては示されないかも知れない様々な特徴が説明される。同様に、幾つかの実施形態の要件ではあるが、他の実施形態の要件ではないかも知れない様々な要件が説明される。
図に示されている要素が、様々な形態のハードウェア、ソフトウェアまたはこれらの組み合わせで実装されてよいことが理解されるべきである。これらの要素は、プロセッサ、メモリおよび入出力インタフェースを含み得る適切にプログラムされた1つまたは複数の汎用デバイスにおいて、ハードウェアとソフトウェアとの組み合わせで実装されるのが好ましい。
図1を参照すると、文章を解析するためのシステムのブロック概略図が示されている。文章は、あらゆる種類の記事、エッセイ、物語、詩、または文献といった任意の形態の著作物であり得る。この説明との関連で、文章は、任意の言語の文字を1つまたは複数含んでよく、オプションとして、句読点などの記号を1つまたは複数含んでよい。「文字(character)」という用語には、「文字(letter)」、「単語(word)」、「数字(numeral)」または「表意文字(ideogram)」などの意味を包含する広い意味が与えられるべきである。
方法は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォンまたは任意のポータブル電子スマートデバイスを含む任意の既知の形態のコンピュータデバイス10で実装され得る。コンピュータデバイス10は、情報またはデータを交換するための通信モジュール16を介して、インターネットのようなプライベートまたはパブリックのネットワーク100と接続可能であることが好ましい。
具体的に言うと、コンピュータデバイス10は、解析される文章を入力するための入力インタフェース20を備える。図1には、様々な入力経路が点線で示されている。例えば、ユーザがコンピュータ入力手段12を介して文章をタイプしてよく、当該コンピュータ入力手段には、例えばキーボードまたはタッチスクリーンパネルが含まれてよい。ユーザは、コンピュータデバイス10のメモリ14に事前に作成および保存された、予めタイプされるか、スキャンされるか、または保存された(例えば.txt、.doc、.pdfまたは.jpg形式などの)文章を開いてもよい。ユーザは、インターネット100から通信モジュール16を介して、興味のある(例えば.txt、.docもしくは.pdf形式のいずれか、または電子デバイス用の任意の他の形式の)E記事をダウンロードしてもよい。1つの実施形態では、ユーザが任意の既知の音声認識デバイスを介して音声により文章を入力してもよい。
入力された文章は、その後プロセッサ30により処理および解析される。プロセッサ30はまず、当該文章の1つまたは複数の文字を、第1の所定の文字数Nを各々が含む1つまたは複数のブロック単位に切断することにより当該文章を処理する。ここで、Nは整数であり、1より大きいかまたはそれに等しい。図1には切断する段階がAと示されている。1つの実施形態では、文章の文字が、例えば1回目の切断中に、各々が1つの文字を含む複数のブロック単位に切断される。これらのブロック単位は次いで、1つまたは複数の一意的な、すなわち非反復的なブロック単位に分類される。分類する段階は、例えば複数のブロック単位を文章に沿って1つずつスキャンした後、識別されている任意の反復ブロック単位を遮断、除去または無視することにより実行され得る。代替的に、分類は、複数のブロック単位の中から任意の反復ブロック単位を探した後、当該反復ブロック単位を遮断、除去または無視することによってもなされ得る。結果として、分類されたブロック単位の各々は一意的で、互いに異なるはずである。図1には分類する段階がBと示されている。1つの実施形態では、一意的な各ブロック単位の反復数がユーザに対して出力および/または表示され得る。
分類された一意的なブロック単位は次いで、等級付けデータベース120と比較され、当該等級付けデータベースは、コンピュータデバイス10のメモリ14に記憶されるか、または、好ましくは図に示されているリモートネットワーク100に配置され得る。図1には比較する段階がCと示されている。等級付けデータベース120は、例えば関連する教育団体もしくは教育機関、または他のサービス提供者により提供される1つまたは複数のデータベースを含んでよく、当該データベースは、個別にまたは共同して、一意的なブロック単位の1つもしくは複数の文字、またはブロック単位自体に対する等級付け情報を含む。オプションとして、新たな文字、単語、熟語もしくは文字列が開発もしくは発見されたとき、または等級付けの改正が必要とされるときはいつでも、システム管理者、および/または、関連する教育団体もしくは教育機関、もしくは他のサービス提供者により等級付けデータベース120が更新されてよい。
一意的なブロック単位を等級付けデータベース120の等級付け情報と比較することにより、一意的なブロック単位の各々に等級が割り当てられ得る。図1には割り当てる段階がDと示されている。1つの実施形態では、一意的なブロック単位の各々の割り当てられた等級が、出力インタフェース40によりユーザに対して出力および表示され得る。出力インタフェース40は、等級付けに関する相対的な指標をユーザに提供すべく、割り当てられた各等級における一意的なブロック単位の総数をチャートなどの統計的な形式で出力してもよい。一意的なブロック単位の各々に割り当てられた等級の1つもしくは複数、もしくは好ましくは全てに基づいて、ならびに/または各等級における一意的なブロック単位の数に基づいて、特定の文字数(上記の例では1つ)を含む一意的なブロック単位に基づく解析による文章の一般的な全体的等級が次いで決定され得る。
同様に、特定の設定内容およびユーザの指示に応じて、文章は文字数が異なるブロック単位に切断され得る。例えば、熟語または詩のような2単語の句、3単語の句、4単語の句、もしくは多数の単語からなる句を解析するには、ブロック単位が、それぞれ2つ、3つ、4つ、またはそれより多くの文字を含む。
1つの実施形態では、文章の等級付けに関する全体的解析を提供すべく、連続的な切断が実行され得る。例えば、1回目の切断において、各々がN個(前の例ではN=1)の文字を含むブロック単位が処理された後、次いで文章が、各々が所定の文字数Mを含む複数のブロック単位に切断され得る。ここで、Mは整数であり、第1の所定の数Nより大きい。例えば、次いで文章の文字が、2回目の切断中に、各々が2つの文字(M=N+1)を含む複数のブロック単位に切断される。2つの文字からなるこれらのブロック単位は次いで、1つまたは複数の一意的なブロック単位に分類された後、上記の等級付けデータベース120と照合および比較される。この工程では、各ブロック単位における文字数を増やして、これらの段階を反復し続ける。このように文章をより大きなブロック単位へと連続的に切断すること、および、係るブロック単位を連続的に処理することにより、文章の全体的等級が得られる。
文章が文と文との間に句読点を含み、よって、切断のルールが、例えば句または文の終わりのカンマまたは終止符に邪魔され得ることが分かる。この場合は、句読点の前の最後の切断から得られたブロック単位が、規定の数より少ない文字数を含むものと思われる。このブロック単位は、依然として他のブロック単位と同じ処理段階で処理される。
別の実施形態において、分類する段階の後、分類された一意的なブロック単位の各々は、等級付けのために等級付けデータベース120と比較される前に、1つまたは複数の特性フィールドと関連付けられる。1つまたは複数の特性フィールドは、これらに限定されるわけではないが、一意的なブロック単位の(i)構造、(ii)意味、(iii)性質、および(iv)発音のうち少なくとも1つを含む1つまたは複数の特性に関するものであってよい。これらの特性の例には、これらに限定されるわけではないが、(i)構造:構成要素、構成要素の配置、および/または構成要素の数(例えば画数)など、(ii)意味:同義語および/または対義語など、(iii)性質:品詞(例えば名詞、動詞または形容詞など)のような文法的性質など、および(iv)発音:発音表記(例えばピンイン)などが含まれてよい。図1には関連付ける段階がEと示されている。
関連付ける段階の間、特性は、1つまたは複数の特性データベース140からの特性データにより決定または定義される。例えば、ブロック単位を構成する文字が、想定される意味または妥当な意味をブロック単位に与えることを確認すべく、一意的なブロック単位の「意味」がまず、特性データベース140と比較することにより識別されてよい。ブロック単位が、特定の意味を持たない無関係の文字のランダムな組み合わせに過ぎないことが分かった場合は、このブロック単位が更に処理されることはない。一方、特性データベース140に従ってブロック単位が意味を持つことが分かった場合は、このブロック単位が、等級付けデータベース120と比較するための次の段階に進んだ後、等級を割り当てられる。
具体的に言うと、1つまたは複数の特性フィールド(例えば、i、ii、iii、iv)と関連付けられる一意的なブロック単位は次いで、等級付けデータベース120の複数のフィールドセット(例えば、図1に示されているI、II、III、IV)と比較され、当該フィールドセットは、1つまたは複数の特性フィールドに従って類別される。例えば、文字構造の相対的な複雑性に基づいて等級をブロック単位に割り当てるべく、5画構造を有する1つの文字を含む一意的なブロック単位が、等級付けデータベース120の対応するフィールドセット(すなわち構造)と比較される。意味の相対的な難しさに基づいて等級をブロック単位に割り当てるべく、(特性データベース140と比較することにより定義または決定される)意味を持つ2つの文字を含む別の一意的なブロック単位が、等級付けデータベース120の対応するフィールドセット(すなわち意味)と比較される。
オプションとして、関連付ける段階から得られた結果、すなわち対応する特性を有する1つまたは複数の一意的なブロック単位間のつながりが、コンピュータデバイス10のメモリユニット14に記憶され得る。このことは、1つまたは複数の同じ文字を含む一意的なブロック単位が別の文章の解析中に分類されるときに、関連するつながりが即座にメモリ14から取り出されてよく、故にプロセッサ30による全体的な工程所要時間をスピードアップさせるのに役立つという点で有利である。
関連付ける段階、比較する段階、および割り当てる段階の後、各等級の各特性フィールドにおける1つまたは複数の一意的なブロック単位の総数は、様々な特性フィールドに基づいて文章の等級付けに関する相対的な指標をユーザに提供すべく、出力インタフェース40を介してチャートなどの統計的な形式で出力され得る。
等級付けデータベース120と同様に、特性データベース140は、コンピュータデバイス10のメモリ14に記憶されるか、または、好ましくは図に示されているようにリモートネットワーク100に配置され得る。特性データベース140は、関連する教育団体もしくは教育機関、または他のサービス提供者により提供される1つまたは複数のデータベースを含んでよく、当該データベースは、個別にまたは共同して、1つまたは複数の文字の特徴を述べ、かつ定義するための情報を含む。オプションとして、1つまたは複数の文字の新たな特性または定義が開発または発見されたときはいつでも、システム管理者、および/または、関連する教育団体もしくは教育機関、もしくは他のサービス提供者により特性データベース140が更新されてよい。1つの実施形態において、特性データベースは、1つまたは複数の辞書データベースである。
更なる実施形態において、切断する段階、分類する段階、関連付けする段階、比較する段階、および割り当てる段階のうち少なくとも1つを含む処理段階は、コンピュータデバイス10のプロセッサ30ではなく、ローカルサーバまたはリモートサーバ180で実行され得る。例えば、文章がウェブページにアップロードされてよく、処理段階がウェブページで行われてよい。
本発明は、プロセッサ30で実装されると上記の方法の段階を実装する機械可読命令を記憶したコンピュータ可読媒体にも関する。
本発明は更に、データを記憶するためのメモリ14と、コンピュータ可読媒体を実行するためのプロセッサ30とを備えるシステムに関する。ここで、プロセッサ30は、実行されているときに上記の方法を実装するコンピュータ可読命令により構成される。
本発明は、等級付けなどの分かり易い形式で結果を提示しながら、文章の効率的かつ系統的な解析および評価を提供するという点で有利である。評価は、文章の内容を、世間に認められた信頼できる情報源と比較することにより、ユーザによるいかなる主観的判断も伴うことなく行われる。従って、結果は信頼性が高く、客観的で、偏見のないものである。本方法およびシステムは、高速、効果的、かつユーザフレンドリーなコンピュータインタフェースで実装される。1つの実施形態において、本発明は、Eラーニングなどの教育において、具体的には、電子リソースの等級付けまたはレベルを評価または確認するために適用され得る。本発明は、教師、親、学生が学習の進捗を判断するために、教室および家庭学習環境の両方で容易に採用され得る。別の実施形態において、本発明は、著作物、編集および出版などを広く伴う任意の非教育部門でも適用され得る。
本発明は、不必要なデータ処理を防止または軽減する1つまたは複数の段階またはルーチンを伴うという点で、等級付けを目的とした、計算上効率的な方式による効果的、高速、かつ効率的な文章解析を可能にする。例えば、何百または何千もの単語を含む文献の詳細な解析が数秒で処理され得る。加えて、多数の文章も同時に処理および解析され得る。
本説明は、本発明の原理を示している。故に、当業者であれば、本明細書で明示的に説明されているわけでも示されているわけでもないが、本発明の原理を具現化する、本発明の主旨および範囲に含まれている様々な構成を考案できることが理解されるであろう。
更に、本明細書において本発明の原理、態様および実施形態、ならびにこれらの具体的な例を記載した全ての記述は、これらの構造的等価物および機能的等価物の両方を包含するように意図されている。加えて、係る等価物は、現在知られている等価物と、将来開発される等価物、すなわち、構造に関わらず同じ機能を実行する、開発されるあらゆる要素とを両方含むように意図されている。
図面および上記の説明には、本発明が詳細に示され、説明されているが、これは例示的なものと見なされるべきであり、特徴を限定するものと見なされるべきではない。ここには典型的な実施形態のみが示され、説明されており、これらはいかなる方式によっても本発明の範囲を限定するものではないことが理解されよう。本明細書で説明される特徴はいずれも、任意の実施形態とともに使用されてよいことが理解され得る。例示的な実施形態は、互いに排除し合うものでも、本明細書に記載されていない他の実施形態を排除するものでもない。結果的に、本発明は、上記の例示的な実施形態のうち1つまたは複数の組み合わせを含む実施形態も提供する。本明細書に記載の本発明に対する改良および変更が、本発明の主旨および範囲から逸脱することなく行われ得る。従って、添付の特許請求の範囲により示されるような限定のみが課されるべきである。
本明細書の特許請求の範囲において特定の機能を実行するための手段として表される任意の要素は、当該機能を実行するいずれかの方法を包含するように意図されている。その方法としては、例えば、a)当該機能を実行する回路素子の組み合わせ、または、b)任意の形態のソフトウェア、つまり、当該ソフトウェアを実行して当該機能を実行するための適切な回路と組み合わされた、ファームウェアもしくはマイクロコードなどを含むソフトウェアが挙げられる。係る特許請求の範囲により定義される本発明は、記載されている様々な手段により提供される機能が、特許請求の範囲に求められる方式で組み合わされ、結集されているという事実において成立する。故に、これらの機能を提供し得る手段はいずれも、本明細書に示されている手段に相当するものと見なされる。
以下の特許請求の範囲、および、本発明の前述の説明では、明示的な言葉または必然的な示唆によって文脈上他の意味に解すべき場合を除き、単語「備える(comprise)」、または「備える(comprises)」もしくは「備える(comprising)」などの変形語は、包括的な意味で使用されるもの、すなわち、述べられた特徴の存在を規定するために使用されるものであり、本発明の様々な実施形態における更なる特徴の存在または追加を排除するために使用されるものではない。
本明細書で先行技術文献への言及があったとしても、その文献が当技術分野における一般常識の一部を形成していると、係る言及が認めているわけではないことが理解されるべきである。

Claims (17)

  1. 文章を解析するためのコンピュータ実装方法であって、
    前記文章の1つまたは複数の文字を、各々が少なくとも1つの文字を含む1つまたは複数のブロック単位に切断する段階と、
    前記1つまたは複数のブロック単位を1つまたは複数の一意的なブロック単位に分類する段階と、
    前記1つまたは複数の一意的なブロック単位を等級付けデータベースと比較することにより、前記1つまたは複数の一意的なブロック単位の各々に等級を割り当てる段階とを備える方法。
  2. 前記1つまたは複数の一意的なブロック単位の各々の割り当てられた前記等級を出力する段階を更に備える、請求項1に記載のコンピュータ実装方法。
  3. 割り当てられた前記等級または割り当てられた各等級における前記1つまたは複数の一意的なブロック単位の総数を出力する段階を更に備える、請求項1または2に記載のコンピュータ実装方法。
  4. 前記1つまたは複数の一意的なブロック単位の各々に割り当てられた前記等級のうち1つまたは複数に基づいて、前記文章の全体的等級を決定する段階を更に備える、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
  5. 前記分類する段階の後に、前記1つまたは複数の一意的なブロック単位の各々を1つまたは複数の特性フィールドと関連付ける段階を更に備える、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  6. 1つまたは複数の特性フィールドと関連付けられた前記1つまたは複数の一意的なブロック単位を、前記等級付けデータベースの複数のフィールドセットと比較する段階であって、前記複数のフィールドセットは、前記1つまたは複数の特性フィールドに従って類別される、比較する段階を更に備える、請求項5に記載のコンピュータ実装方法。
  7. 前記1つまたは複数の特性フィールドは、一意的なブロック単位の構造、意味、性質および発音のうち少なくとも1つを含む1つまたは複数の特性に関する、請求項5または6に記載のコンピュータ実装方法。
  8. 前記1つまたは複数の特性は、1つまたは複数の特性データベースからのデータにより定義される、請求項7に記載のコンピュータ実装方法。
  9. 各等級の各特性フィールドにおける前記1つまたは複数の一意的なブロック単位の総数を出力する段階を更に備える、請求項5から8のいずれか一項に記載のコンピュータ実装方法。
  10. 前記文章の前記文字は、第1の所定の文字数Nの複数のブロック単位に切断され、前記複数のブロック単位は、請求項1から9のいずれか一項に従って処理され、Nは整数であり、Nは1より大きいかまたはそれに等しい、請求項1に記載のコンピュータ実装方法。
  11. 前記文章の前記文字は次に、第2の所定の文字数Mの複数のブロック単位に切断され、前記複数のブロック単位は、請求項1から10のいずれか一項に従って処理され、前記第2の所定の数Mは、整数を含み、第1の所定の数Nよりサイズが大きい、請求項10に記載のコンピュータ実装方法。
  12. 前記文章の前記全体的等級は、前記文章をより大きなブロック単位へと連続的に切断すること、および、請求項1から10のいずれか一項に従って係るブロック単位を連続的に処理することから導き出される、請求項4に記載のコンピュータ実装方法。
  13. 前記段階は、コンピュータデバイスのプロセッサにより実装される、請求項1から12のいずれか一項に記載のコンピュータ実装方法。
  14. 前記段階は、ネットワークサーバにより実装される、請求項1から12のいずれか一項に記載のコンピュータ実装方法。
  15. 前記関連付ける段階から得られた結果をメモリユニットに記憶する段階を更に備える、請求項5に記載のコンピュータ実装方法。
  16. プロセッサに請求項1から15のいずれか一項に記載のコンピュータ実装方法を実行させるためのプログラム。
  17. データを記憶するためのメモリと、コンピュータ可読命令を実行するためのプロセッサとを備えるシステムであって、前記プロセッサは、実行されているときに請求項1から15のいずれか一項に記載のコンピュータ実装方法を実装する前記コンピュータ可読命令により構成される、システム。
JP2018525475A 2015-11-20 2016-04-11 文章を解析するための方法、プログラムおよびシステム Active JP6693032B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
HK15111493.2A HK1210371A2 (en) 2015-11-20 2015-11-20 A method and system for analyzing a piece of text
HK15111493.2 2015-11-20
PCT/CN2016/079003 WO2017084238A1 (en) 2015-11-20 2016-04-11 A method and system for analyzing a piece of text

Publications (2)

Publication Number Publication Date
JP2018538615A true JP2018538615A (ja) 2018-12-27
JP6693032B2 JP6693032B2 (ja) 2020-05-13

Family

ID=55747663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018525475A Active JP6693032B2 (ja) 2015-11-20 2016-04-11 文章を解析するための方法、プログラムおよびシステム

Country Status (10)

Country Link
US (1) US10755594B2 (ja)
JP (1) JP6693032B2 (ja)
CN (1) CN106776533B (ja)
CA (1) CA2926953C (ja)
HK (1) HK1210371A2 (ja)
MY (1) MY195702A (ja)
PH (1) PH12018550064A1 (ja)
SG (1) SG10201509744UA (ja)
TW (1) TWI686714B (ja)
WO (1) WO2017084238A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190317979A1 (en) * 2017-12-14 2019-10-17 Sang C. Lee Tripartite poetry paradigm
CN111914093A (zh) * 2019-05-09 2020-11-10 深圳中兴飞贷金融科技有限公司 数据处理方法和装置,存储介质和电子设备

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034038A1 (en) * 1994-06-03 1995-12-14 Synopsys, Inc. Method and apparatus for context sensitive text displays
US5724498A (en) * 1995-06-07 1998-03-03 Adobe Systems Incorporated Method and apparatus for concealing character modifications made for text composition purposes
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US6154757A (en) * 1997-01-29 2000-11-28 Krause; Philip R. Electronic text reading environment enhancement method and apparatus
TW364966B (en) * 1997-07-15 1999-07-21 Inventec Corp Automatic syntax analysis method for Chinese
US6120297A (en) * 1997-08-25 2000-09-19 Lyceum Communication, Inc. Vocabulary acquistion using structured inductive reasoning
JP3612597B2 (ja) * 1998-11-05 2005-01-19 日本電信電話株式会社 文書重要文ランキング方法、文書重要文ランキング装置、及び文書重要文ランキングプログラムを記録した記録媒体
US7069508B1 (en) * 2000-07-13 2006-06-27 Language Technologies, Inc. System and method for formatting text according to linguistic, visual and psychological variables
US6658377B1 (en) * 2000-06-13 2003-12-02 Perspectus, Inc. Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text
US7165264B1 (en) * 2001-07-26 2007-01-16 Digeo, Inc. Client-side tool for splitting or truncating text strings for interactive television
US7103848B2 (en) * 2001-09-13 2006-09-05 International Business Machines Corporation Handheld electronic book reader with annotation and usage tracking capabilities
US7313513B2 (en) * 2002-05-13 2007-12-25 Wordrake Llc Method for editing and enhancing readability of authored documents
US20050069849A1 (en) * 2003-09-30 2005-03-31 Iode Design Computer-based method of improving reading comprehension
CN1673996A (zh) * 2004-03-24 2005-09-28 无敌科技股份有限公司 一种识别语言文本难易度的系统及其方法
JP4304146B2 (ja) 2004-12-01 2009-07-29 株式会社東芝 辞書登録装置、辞書登録方法および辞書登録プログラム
US8608477B2 (en) * 2006-04-06 2013-12-17 Vantage Technologies Knowledge Assessment, L.L.C. Selective writing assessment with tutoring
JP2008129475A (ja) * 2006-11-23 2008-06-05 Osamu Asai 音声教材
TW200825778A (en) * 2006-12-12 2008-06-16 Inventec Besta Co Ltd Hand-held reading device and the reading assistant method thereof
GB2446427A (en) * 2007-02-07 2008-08-13 Sharp Kk Computer-implemented learning method and apparatus
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US8306356B1 (en) * 2007-09-28 2012-11-06 Language Technologies, Inc. System, plug-in, and method for improving text composition by modifying character prominence according to assigned character information measures
US8136034B2 (en) * 2007-12-18 2012-03-13 Aaron Stanton System and method for analyzing and categorizing text
CN101539923A (zh) * 2008-03-18 2009-09-23 北京搜狗科技发展有限公司 从文档中提取正文片段的方法及装置
CN101540041B (zh) 2008-03-21 2012-06-27 中国科学院计算技术研究所 一种扫描文档浏览适配方法
US8463594B2 (en) * 2008-03-21 2013-06-11 Sauriel Llc System and method for analyzing text using emotional intelligence factors
US8320674B2 (en) 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
JP2010256821A (ja) * 2009-04-28 2010-11-11 Sci-Tec:Kk 学習支援システム
US20100311030A1 (en) * 2009-06-03 2010-12-09 Microsoft Corporation Using combined answers in machine-based education
US20110123967A1 (en) * 2009-11-24 2011-05-26 Xerox Corporation Dialog system for comprehension evaluation
US8892421B2 (en) * 2010-12-08 2014-11-18 Educational Testing Service Computer-implemented systems and methods for determining a difficulty level of a text
JP2012208143A (ja) * 2011-03-29 2012-10-25 Hideki Aikawa オンライン学習システム
CN102497270B (zh) 2011-12-24 2014-07-16 桂林电子科技大学 一类规范化文档的加密方法
CN103186911B (zh) 2011-12-28 2015-07-15 北大方正集团有限公司 一种处理扫描书数据的方法及装置
CN102662952B (zh) 2012-03-02 2015-04-15 成都康赛信息技术有限公司 一种基于层次的中文文本并行数据挖掘方法
CN104462207B (zh) * 2014-11-03 2017-07-11 陕西师范大学 面向分布式学习环境的多片段学习资源标注方法
RU2580424C1 (ru) * 2014-11-28 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ выявления незначащих лексических единиц в текстовом сообщении и компьютер
US9563613B1 (en) * 2015-01-23 2017-02-07 Sprint Communications Company L.P. System and method for dynamic portable document file generation
CN104615772B (zh) * 2015-02-16 2017-11-03 重庆大学 一种用于电子商务的文本评价数据专业程度分析方法
CN107291683A (zh) * 2016-04-11 2017-10-24 珠海金山办公软件有限公司 一种拼写检查方法及装置
US11615104B2 (en) * 2016-09-26 2023-03-28 Splunk Inc. Subquery generation based on a data ingest estimate of an external data system
US11210622B2 (en) * 2016-09-26 2021-12-28 Splunk Inc. Generating augmented process models for process analytics
US11604795B2 (en) * 2016-09-26 2023-03-14 Splunk Inc. Distributing partial results from an external data system between worker nodes
US11748358B2 (en) * 2018-09-28 2023-09-05 Splunk Inc. Feedback on inferred sourcetypes

Also Published As

Publication number Publication date
CN106776533A (zh) 2017-05-31
HK1210371A2 (en) 2016-04-15
PH12018550064A1 (en) 2018-11-12
CA2926953C (en) 2022-08-09
CN106776533B (zh) 2021-05-07
SG10201509744UA (en) 2017-06-29
WO2017084238A1 (en) 2017-05-26
MY195702A (en) 2023-02-06
TWI686714B (zh) 2020-03-01
US10755594B2 (en) 2020-08-25
TW201719450A (zh) 2017-06-01
US20170148337A1 (en) 2017-05-25
CA2926953A1 (en) 2017-05-20
JP6693032B2 (ja) 2020-05-13

Similar Documents

Publication Publication Date Title
US10755185B2 (en) Rating difficulty of questions
US10169706B2 (en) Corpus quality analysis
US10713571B2 (en) Displaying quality of question being asked a question answering system
US9864744B2 (en) Mining multi-lingual data
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US10474752B2 (en) System and method for slang sentiment classification for opinion mining
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
JP6693032B2 (ja) 文章を解析するための方法、プログラムおよびシステム
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Putri et al. Software feature extraction using infrequent feature extraction
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
JP2017021523A (ja) 用語意味コード判定装置、方法、及びプログラム
JP6351177B2 (ja) 学習単元間の親子関係を特定する学習教材分析プログラム、装置及び方法
CN116685966A (zh) 调整查询生成模式
EP4239515A1 (en) A method and system for analyzing a piece of text comprising chinese characters
JP2018055620A (ja) 情報処理装置及びプログラム
Bannò et al. Back to grammar: Using grammatical error correction to automatically assess L2 speaking proficiency
Li Journal Profile Based on Feature Words Extracting and Feature Co-occurrence Analyzing
JP5363178B2 (ja) 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200326

R150 Certificate of patent or registration of utility model

Ref document number: 6693032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250