JP6502732B2 - 文書表示装置、文書表示方法及びそのプログラム - Google Patents

文書表示装置、文書表示方法及びそのプログラム Download PDF

Info

Publication number
JP6502732B2
JP6502732B2 JP2015082265A JP2015082265A JP6502732B2 JP 6502732 B2 JP6502732 B2 JP 6502732B2 JP 2015082265 A JP2015082265 A JP 2015082265A JP 2015082265 A JP2015082265 A JP 2015082265A JP 6502732 B2 JP6502732 B2 JP 6502732B2
Authority
JP
Japan
Prior art keywords
word
words
difficult
document
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015082265A
Other languages
English (en)
Other versions
JP2016201057A (ja
Inventor
田中 英輝
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2015082265A priority Critical patent/JP6502732B2/ja
Publication of JP2016201057A publication Critical patent/JP2016201057A/ja
Application granted granted Critical
Publication of JP6502732B2 publication Critical patent/JP6502732B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、自然言語処理技術に関し、特に、通信回線で提供する文書における難語を推定し、推定した難語に辞書の情報を付与する文書表示装置、文書表示方法及びそのプログラムに関する。
近年、通信回線で提供する文書により国内在住の外国人に情報を伝える際に、外国語に加えてやさしい日本語で書き換えて伝える動きが活発である。例えばNHK(日本放送協会)がWebで提供するNEWSWEB EASYは通常のニュースをやさしい日本語に書き換えて提供している(例えば、非特許文献1参照)。
このような書き換えでは、難しい単語や文法を使わないようになっているため、その文書を提供するサービス事業者は、何が難しい単語なのかを知っておく必要がある。また、書き換えの困難な難しい単語には辞書の説明が付加されるようになっている。このようにやさしい日本語の書き換えの作業や、そのサービスとして、難しい単語に辞書の情報を付加する場合には単語の難易度を把握することが重要となる。
また、従来では、このような通信回線で提供する文書における単語の難易度リストは人手で作られている。ここで、単語の難易度を記載した既存の難易度リストとして、教育目的のために人手で作成されたものが幾つかある。例えば外国人に対する日本語教育のために作成された「日本語能力試験出題基準」には、最上級の1級から入門のまで4級の出題の目安となる単語リストが掲載されている(例えば、非特許文献2参照)。
ところで、前述のNEWSWEB EASYでは、Webで提供されるニュースに対して視聴者のアンケートなどの投票を得ることができる。
そして、このようなWebの投票を使って情報収集し利用するシステムとして、例えば、スポンサーとユーザーで流行を作り出すことを目的に、予め定めた単語についてスポンサーに投票させてその投票数から流行語を決定し、該流行語をキーワードとしたユーザーの検索要求に応じるよう利用するシステム(例えば、特許文献1参照)や、アルバムに収録する楽曲を投票によって決めるシステム(例えば、特許文献2参照)などがある。
特開2006−293920号公報 特開2003−296499号公報
"NEWSWEB EASY"、[online]、NHK(日本放送協会)、[平成27年3月20日検索]、インターネット〈URL:http://www3.nhk.or.jp/news/easy/〉 "日本語能力試験出題基準"、独立行政法人国際交流基金、公益財団法人日本国際教育支援協会、1994年11月
前述したように、通信回線で提供する文書における単語の難易度リストは人手で作られているため、作成の労力が大きく時間もかかることから、時事変化する単語の難易度に迅速に対応することができない。
例えば、通信回線で提供する文書における単語の難易度として、日本語能力試験出題基準に収録されているような既存の単語の難易度リストを利用したとしても、その収録単語数がそれほど多くなく、日本語能力試験出題基準の場合9,000語程度しか収録されていない。また、一度作られた基準はほとんど更新されないため、「スマートフォン」などの新しい単語は収録されていない。このため、既存の単語の難易度リストの利用は、時代によって単語の難易度が変化することに対応することができない。
従って、通信回線で辞書の情報を付して提供する文書について、時事変化する単語の難易度を効率よく自動的に推定し、推定した難易度の高い単語(難語)に辞書の情報を自動的に付与する技法が望まれる。
一方、特許文献1,2の技法では、Webの投票を使って情報収集し利用するシステムを開示しているが、予め定めた単語や、予め定めた楽曲名(これは単語とみなすことができる。)に対してWebの投票を行わせ、その単語の投票数を収集し利用するものであり、これらの技法を用いても、通信回線で提供する「文書内から難易度の高い単語」を推定して抽出することはできない。
本発明の目的は、上述の問題に鑑みて、通信回線で提供する文書における難語を推定し、推定した難語に辞書の情報を付与する文書表示装置、文書表示方法及びそのプログラムを提供することにある。
包括的には、本発明の文書表示装置は、WEBなど通信回線で辞書の情報を付して提供する文書(例えばニュース記事)を対象に、視聴者から当該文書に対する難易度(例えば「難しい、やさしい」といった難しさ)に関する質問への投票を通信回線経由で収集し、その得票数を使って文書に含まれる単語の難易度を自動的に推定して難語を定め抽出し、難語に辞書の情報を自動的に付与する。
即ち、本発明の文書表示装置は、通信回線で提供する文書における難語を推定し、推定した難語に辞書の情報を付与する文書表示装置であって、通信回線を通じて接続される視聴者が利用する外部端末に対して、所定の難語リストを基に、難語の位置、及び難語に対する辞書の情報を提示可能とする態様で所定の文書を表示するよう制御するとともに、当該文書に対する難易度を該視聴者に投票させる投票ボタンを表示するよう制御する文書表示制御部と、前記投票ボタンを経て取得した投票結果を収集し、前記文書を構成する単語のうち不要語を除去した単語に対して、当該収集した投票結果から得られる前記難易度を示す得票数を割り当て、単語ごとに所定の全単語リスト内に累計して保持するとともに、前記所定の全単語リスト内に累計して保持されている単語の各々の難易度を示す得票数を基に該単語が難語であるか否かの推定を行い、難語である際に前記所定の難語リストに追加して更新する投票結果解析部と、を備えることを特徴とする。
また、本発明の文書表示装置において、前記投票結果解析部は、前記文章における単語ごとの品詞を基に、前記文章から不要語を除去するか、又は予め不要語として指定された不要語リストを参照して前記文章から不要語を除去する不要語除去部を有することを特徴とする。
また、本発明の文書表示装置において、前記投票結果解析部は、当該得票数に関する割合処理により、或いは当該得票数に関する割合処理及び当該得票数に関する統計的検定処理により、前記全単語リストにおける単語を難語として推定することを特徴とする。
また、本発明の文書表示装置において、前記投票結果解析部は、さらに、所定の例外リストにより指定されていない単語のみを難語として前記所定の難語リストに登録する例外処理部を有することを特徴とする。
更に、本発明の文書表示方法は、通信回線で提供する文書における難語を推定し、推定した難語に辞書の情報を付与する文書表示装置の文書表示方法であって、通信回線を通じて接続される視聴者が利用する外部端末に対して、所定の難語リストを基に、難語の位置、及び難語に対する辞書の情報を提示可能とする態様で所定の文書を表示するよう制御するとともに、当該文書に対する難易度を該視聴者に投票させる投票ボタンを表示するよう制御するステップと、前記投票ボタンを経て取得した投票結果を収集し、前記文書を構成する単語のうち不要語を除去した単語に対して、当該収集した投票結果から得られる前記難易度を示す得票数を割り当て、単語ごとに所定の全単語リスト内に累計して保持するとともに、前記所定の全単語リスト内に累計して保持されている単語の各々の難易度を示す得票数を基に該単語が難語であるか否かの推定を行い、難語である際に前記所定の難語リストに追加して更新するステップと、を含むことを特徴とする。
更に、本発明のプログラムは、コンピュータに、本発明の文書表示方法を実行させるためのプログラムとする。
本発明によれば、ニュース記事などの文書は新しい話題を日々提供するため、ニュース記事などの文書に出現する新しい話題に関する単語に対する難易度も迅速、且つ自動的に得られ、時代とともに変わる単語の難易度の変化にも迅速に対応して難語に関する辞書の情報を自動的に提示することができる。
また、本発明によれば、ニュース記事の難易度に関する視聴者の投票によって単語の難易度を把握し、難語を定めることができるため、難易度の高い単語のリスト(難語リスト)を人手により作成する必要もなくなり、ニュース記事内の難語に辞書の情報を効率よく自動的に付与することができる。
本発明による一実施形態の文書表示装置を示すブロック図である。 本発明による一実施形態の文書表示装置における実施例1の投票結果解析部を示すブロック図である。 本発明による一実施形態の文書表示装置における文書表示方法を示すフローチャートである。 本発明による一実施形態の文書表示装置における実施例2の投票結果解析部を示すブロック図である。
(装置の全体構成)
以下、図面を参照して、本発明による一実施形態の文書表示装置1を説明する。図1には、本発明による一実施形態の文書表示装置1のブロック図を示している。文書表示装置1は、通信回線で提供する文書における難しい単語(難語)を推定し、推定した難語に辞書の情報を付与するサーバーとして構成可能な装置であり、文書データベース11、文書表示制御部12、難語照合部13、難語リスト記憶部14、辞書照合部15、国語辞書記憶部16、及び投票結果解析部17を備える。
例えば、文書表示装置1は、非特許文献1におけるNEWSWEB EASYのように、文書として、日々やさしい日本語のニュース記事をインターネットで提供するためのサーバーとして構成することができ、難語には辞書の情報を付与するようになっている。
文書データベース11は、例えばニュース記事を文書として、既にその本文が完成したものを格納している。このニュース記事には、形態素解析器により予め分割された単語ごとに、その品詞情報が付加されている。文書データベース11内の1以上のニュース記事は、サービス事業者によって更新される。そして、複数のニュース記事があるときは、通信回線を通じて提示する順となるよう、サービス事業者によって操作できるようになっている。
例えば、文書表示装置1をNEWSWEB EASYに適用する例では、所謂「やさしい日本語のニュース記事」を文書として文書データベース11に格納しており、その文章がやさしくなっていることを意図して構成されている。
形態素解析器は、文を単語に分割してその品詞を決定する装置である。代表的な形態素解析器にはMeCabが知られている(“MeCab”、[online]、[平成27年3月20日検索]、インターネット〈URL: http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html〉)。
文書表示制御部12は、文書表示部121及び投票管理部122を備える。文書表示部121は、通信回線を通じて提示するニュース記事を文書データベース11から抽出して、当該通信回線を通じて接続される視聴者が利用するパーソナルコンピュータや携帯端末などの外部端末2‐N(Nは1以上の整数)に表示するよう制御するとともに、当該提示するニュース記事を難語照合部13に出力する。投票管理部122の動作は後述する。
難語照合部13は、ニュース記事内の単語を難語リスト記憶部14に格納されている難語リストと照合し、難語と認定されたニュース記事内の単語群を辞書照合部15に出力する。ここで、難語リストとは、後述する投票結果解析部17により視聴者にとって難しい単語として推定した難語を一覧表にしたものである。
辞書照合部15は、難語と認定されたニュース記事内の単語群を国語辞書記憶部14に格納されている国語辞書と照合し、難語に対する辞書の情報(難語説明の文章)を難語とともに文書表示制御部12に出力する。
文書表示制御部12における文書表示部121は、辞書照合部15から得られる難語の位置、及び難語に対する辞書の情報を提示可能とする態様で文書データベース11から抽出したニュース記事を、当該通信回線を通じて接続される視聴者が利用する外部端末2‐Nに表示するよう制御する。難語の情報は、例えば視聴者がカーソルを難語に合わせたときに説明が飛び出すように表示することができる。
また、文書表示制御部12における投票管理部122は、そのニュース記事を「やさしい」と思うか「難しい」と思うかのニュース記事に対する難易度を投票させる投票ボタンを表示し提示している。視聴者は自分の判断でこれを選択して投票可能となっている。そして、投票管理部122は、そのニュース記事に対する視聴者の投票結果を得るたびに、ニュース記事とその投票結果を示す情報を投票結果解析部17に出力する。
投票結果解析部17は、ニュース記事と投票結果を得ると、処理の詳細は後述するが、この投票結果を利用して、ニュース記事内の単語を「難しい語」と「やさしい語」の2分類し、投票結果の投票結果を基に「難しい語」として推定した単語を難語として、難語リスト記憶部14に格納されている難語リストに追加して更新する。
このように、本実施形態の文書表示装置1は、日々提示可能な「やさしい日本語のニュース記事」に対する視聴者の投票結果を基にして、「難しい語」と「やさしい語」を自動的に区別し、難語を難語リストに蓄積することができる。このため、提示する文書を新しい話題で日々提供しても、ニュース記事などの文書に出現する新しい話題に関する単語に対する難易度も迅速に得られ、時代とともに変わる単語の難易度の変化にも迅速に対応して難語に関する辞書の情報を提示することができる。
(実施例1の投票結果解析部)
次に、図2を参照して、実施例1の投票結果解析部17の詳細構成とその動作を説明する。図2は、本実施形態の文書表示装置1における実施例1の投票結果解析部17を示すブロック図である。
実施例1の投票結果解析部17は、不要語除去部171、不要語リスト記憶部172、全単語リスト更新部173、全単語リスト記憶部174、及び難語判定部175を備える。
投票結果解析部17は、ニュース記事である文書(形態素解析による単語ごとの品詞情報を含む)と、投票結果(その文書に対するやさしい、或いは難しいを示す投票結果)を得て、難語を推定し難語リストを更新する機能部である。
ここで、ニュース記事を「委員会は、協議を続けます。」とすると、その形態素解析の結果を()で示し、「委員会(名詞)は(助詞)、(記号)協議(名詞)を(助詞)続け(動詞:原形「続ける」)ます(助動詞:原形「ます」)。(記号)」で表すことができる。
まず、不要語除去部171は、ニュース記事における単語ごとの品詞を基にニュース記事から不要語を除去するか、又は不要語リスト記憶部172に格納されている不要語リストを用いて、ニュース記事内で難語の判定対象にならない単語を不要語として選り分けて除去する。不要語リストは、サービス事業者によって予め定めた不要な単語を並べたものとしてもよいし、形態素解析の結果で取得可能な品詞情報のうち、指定の品詞をリストにしたものとしてもよい。ここでは品詞を使って「記号」、「助詞」及び「助動詞」を示す単語は不要語として指定するよう作成された不要語リストとする。
従って、本例では、不要語除去部171は、「委員会は、協議を続けます。」のニュース記事内で、「記号」、「助詞」及び「助動詞」を示す単語は不要語として除去し、「委員会」、「協議」及び「続ける」の単語を全単語リスト更新部173に出力する。なお、活用する語は原形を出力する。
全単語リスト更新部173は、ニュース記事内で不要語を除去した単語(本例では、「委員会」、「協議」及び「続ける」の単語)を、全単語リスト記憶部174に格納されている全単語リストに追加し、その投票結果の頻度を更新する。ここで、全単語リストは、これまでに追加し更新するべく出現した全ての単語におけるニュース記事に対する投票結果の頻度を記録した表である。
ここで、更新前の全単語リストの状態が表1の通りだったとする。
表1において、「続ける」、「行く」及び「協議」といった単語が、「やさしい」と「難しい」で評価されたニュース記事に対する投票結果で得られた回数を記録したものである。
そこで、本例の「委員会は、協議を続けます。」のニュース記事に対して、「難しい」で評価された投票結果が得られているときは、全単語リスト更新部173は、「委員会」、「協議」及び「続ける」の単語を、表2のように、全単語リストに追加し、その投票結果の頻度を更新する。
「委員会」、「協議」及び「続ける」は、難しいと判定されたニュース記事に含まれていたため、表2に示すように、それぞれ、全単語リストにおける難しい頻度を1つ増加する。このとき、新しい単語である「委員会」に対しては、全単語リストに新たに列を設けて頻度を記入する。
難語判定部175は、全単語リスト記憶部174における全単語リストが更新される度に、或いは定期的に全単語リストを参照し、各単語に関する当該難易度を示す得票数を基に、全単語リストに登録されている各単語が難語であるか否かを推定し、難語であると推定した際には、難語リスト記憶部14に格納されている難語リストに追加して更新する。
難語であるか否かの第1の推定処理は、各単語の難易度を示す得票数に関する割合処理により全単語リストにおける単語を難語として推定する。最も単純には、全単語リストにおける難しい頻度がやさしい頻度を超えている単語を難語として推定する。例えば、表2に示す全単語リストの例では、「協議」と「委員会」を難語として推定する。或いは、n個以上の全体頻度に対する難しい頻度がm%以上のとき、難語として推定するとしてもよい。
また、難語であるか否かの第2の推定処理は、割合処理に統計的検定を加えて難語を決定する。例えば、割合処理で難しい割合がやさしい割合より大きい単語について、帰無仮説を「当該単語がやさしい、難しいと判定される確率は等しく0.5である」とする。対立仮説を「単語が難しいと判定される確率はやさしいと判定される確率より大きい」とする。また分布として二項分布を仮定し有意水準を5%とする。表2の例では、難しい割合がやさしい割合より大きな「協議」と「委員会」が対象となる。ここで「協議」はp値=0.00015となり、帰無仮説が棄却され、対立仮説が採用されて難語として推定する。一方、「委員会」はp値=0.5となり帰無仮説は棄却されず、難語とは推定されない。
以上の例では、「やさしい」と「難しい」の2分類で投票結果を得て、難語を推定する例を説明したが、「やさしい」、「ふつう」、「難しい」などの3分類以上で投票結果を得るようにしてもよい。3分類以上で投票結果を得る場合も、予め定めた規則、例えば「ふつう」は「やさしい」とみなすなど、で「やさしい」と「難しい」の2分類に分けることで、上記の難語判定部175の処理により、難語を推定することができる。
また、以上の例では、投票管理部122が、視聴者から投票結果を得るたびに、ニュース記事とその投票結果を示す情報を投票結果解析部17に出力する例を説明したが、そのニュース記事に対する各視聴者の投票結果を定期的に集計し、ニュース記事とその集計した投票結果、即ち、そのニュース記事に対する各視聴者の判断を示す情報を投票結果解析部17に出力するよう構成してもよい。
図3は、図1に示す文書表示装置1における文書表示方法を示すフローチャートである。まず、文書表示装置1は、文書表示制御部12により、通信回線を通じて接続される視聴者が利用する外部端末2‐N(Nは1以上の整数)に表示するよう制御するために、ニュース記事などの文書を文書データベース11から抽出する(ステップS1)。
続いて、文書表示装置1は、難語照合部13により、当該文書内の単語を難語リスト記憶部14に格納されている難語リストと照合し、難語と認定された単語を特定する(ステップS2)。
続いて、文書表示装置1は、辞書照合部15により、難語と認定された文書内の単語群を国語辞書記憶部14に格納されている国語辞書と照合し、難語に対する辞書の情報(難語説明の文章)を難語とともに文書表示制御部12に出力する(ステップS3)。
続いて、文書表示装置1は、文書表示制御部12により、難語の位置、及び難語に対する辞書の情報を提示可能とする態様で文書データベース11から抽出した文書と、当該文書に関する難易度を投票させる投票ボタンを当該外部端末2‐Nに提示して表示するよう制御する(ステップS4)。
文書表示装置1は、投票結果解析部17により、文書と投票ボタンの提示後に得られる投票結果を取得するまで(ステップS5)、或いは文書と投票ボタンの提示後から一定期間内の投票結果を集計した後に、投票結果から得られる各単語の難易度を示す得票数を基に、全単語リスト内の単語を解析して難語を推定し、難語リストに追加する(ステップS6)。
これにより、本実施形態に係る文書表示方法は、日々提示可能な「やさしい日本語のニュース記事」に対する視聴者の投票結果を基にして、難語を自動的に推定し難語リストに蓄積することができる。このため、提示する文書を新しい話題で日々提供しても、ニュース記事などの文書に出現する新しい話題に関する単語に対する難易度も迅速に得られ、時代とともに変わる単語の難易度の変化にも迅速に対応して難語に関する辞書の情報を提示することができる。
(実施例2の投票結果解析部)
次に、図4を参照して、実施例2の投票結果解析部17の詳細構成を説明する。図4は、本実施形態の文書表示装置1における実施例2の投票結果解析部17を示すブロック図である。尚、実施例1と同様な構成要素には、同一の参照番号を付している。
実施例2の投票結果解析部17は、不要語除去部171、不要語リスト記憶部172、全単語リスト更新部173、全単語リスト記憶部174、難語判定部175、例外処理部176、及び例外リスト記憶部177を備える。
不要語除去部171、不要語リスト記憶部172、全単語リスト更新部173、全単語リスト記憶部174、及び難語判定部175の処理は、実施例1と同様であり、更なる説明は省略する。実施例2の投票結果解析部17は、実施例1と比較して、例外処理部176及び例外リスト記憶部177を更に備える点で相違する。
例外処理部176は、難語判定部175により難語として推定した単語について、例外リスト記憶部177に格納されている例外リストと照合し、例外リストにより指定されていない単語のみを難語として難語リストに登録するよう動作する。また、例外処理部176は、定期的に、例外リストと難語リストと照らし合わせ、難語リストに加えられている難語として推定した単語が、例外リストに登録されている単語と一致するときは難語リストから削除するよう難語リスト記憶部14に更新指示する機能を有する。
例外リストには、サービス事業者が難語として認めない単語が予め登録されている。即ち、例えば悪意ある投票ボタンの使用によって難易度の低い文書に対しても「難しい」と投票された結果、難語として推定されたとしても難語リストに追加したくない場合や、過去に難語として難語リストに登録されていて、時事変化する単語の難易度により難語ではなくなった単語を難語リストから削除したい場合に、そのメンテナンスが簡便となるよう設けられている。即ち、サービス事業者が難語として認めない単語があれば例外リストに登録すればよくなる。
或いはまた、全単語リストにて、単語ごとに最新の更新日時を記録して、一定期間、更新がなされていない単語については、全単語リストから除外して難語の候補とはしないよう構成することもできる。
以上のように、本実施形態に係る文書表示装置1及び文書表示方法は、日々提示可能な文書に対する視聴者の投票結果を基にして、難語を自動的に推定し難語リストに蓄積することができ、時代とともに変わる単語の難易度の変化にも迅速に対応して難語に関する辞書の情報を提示することができる。
また、本実施形態に係る文書表示装置1は、通信回線で接続可能なサーバーとしてコンピュータにより構成することができ、当該コンピュータに、文書表示装置1の構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリ(図示せず)に記憶される。コンピュータに備えられる中央演算処理装置(CPU)などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで、これら各構成要素の機能をコンピュータに実現させることができる。ここで、各構成要素の一部の機能をハードウェアで実現してもよい。
以上、特定の実施例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述の実施形態の例では、提供する文書には、所定の形態素解析による単語ごとの品詞情報が予め付加されている例を説明したが、これは処理負担を軽減させるための好適例であり、その処理負担が問題とならない場合には、不要語除去部171の事前処理として、文書に対して当該所定の形態素解析を行って、単語ごとの品詞を区分するよう構成することもできる。
本発明によれば、文書に対する視聴者の投票結果を基にして難語を自動的に推定し自動的に難語に関する辞書の情報を提示することができるので、通信回線で接続可能な文書提供サービスの用途に有用である。
1 文書表示装置
2‐2,2‐N 外部端末
11 文書データベース
12 文書表示制御部
13 難語照合部
14 難語リスト記憶部
15 辞書照合部
16 国語辞書記憶部
17 投票結果解析部
121 文書表示部
122 投票管理部
171 不要語除去部
172 不要語リスト記憶部
173 全単語リスト更新部
174 全単語リスト記憶部
175 難語判定部
176 例外処理部
177 例外リスト記憶部

Claims (6)

  1. 通信回線で提供する文書における難語を推定し、推定した難語に辞書の情報を付与する文書表示装置であって、
    通信回線を通じて接続される視聴者が利用する外部端末に対して、所定の難語リストを基に、難語の位置、及び難語に対する辞書の情報を提示可能とする態様で所定の文書を表示するよう制御するとともに、当該文書に対する難易度を該視聴者に投票させる投票ボタンを表示するよう制御する文書表示制御部と、
    前記投票ボタンを経て取得した投票結果を収集し、前記文書を構成する単語のうち不要語を除去した単語に対して、当該収集した投票結果から得られる前記難易度を示す得票数を割り当て、単語ごとに所定の全単語リスト内に累計して保持するとともに、前記所定の全単語リスト内に累計して保持されている単語の各々の難易度を示す得票数を基に該単語が難語であるか否かの推定を行い、難語である際に前記所定の難語リストに追加して更新する投票結果解析部と、
    を備えることを特徴とする文書表示装置。
  2. 前記投票結果解析部は、前記文章における単語ごとの品詞を基に、前記文章から不要語を除去するか、又は予め不要語として指定された不要語リストを参照して前記文章から不要語を除去する不要語除去部を有することを特徴とする、請求項1に記載の文書表示装置。
  3. 前記投票結果解析部は、当該得票数に関する割合処理により、或いは当該得票数に関する割合処理及び当該得票数に関する統計的検定処理により、前記全単語リストにおける単語を難語として推定することを特徴とする、請求項1又は2に記載の文書表示装置。
  4. 前記投票結果解析部は、さらに、所定の例外リストにより指定されていない単語のみを難語として前記所定の難語リストに登録する例外処理部を有することを特徴とする、請求項1から3のいずれか一項に記載の文書表示装置。
  5. 通信回線で提供する文書における難語を推定し、推定した難語に辞書の情報を付与する文書表示装置の文書表示方法であって、
    通信回線を通じて接続される視聴者が利用する外部端末に対して、所定の難語リストを基に、難語の位置、及び難語に対する辞書の情報を提示可能とする態様で所定の文書を表示するよう制御するとともに、当該文書に対する難易度を該視聴者に投票させる投票ボタンを表示するよう制御するステップと、
    前記投票ボタンを経て取得した投票結果を収集し、前記文書を構成する単語のうち不要語を除去した単語に対して、当該収集した投票結果から得られる前記難易度を示す得票数を割り当て、単語ごとに所定の全単語リスト内に累計して保持するとともに、前記所定の全単語リスト内に累計して保持されている単語の各々の難易度を示す得票数を基に該単語が難語であるか否かの推定を行い、難語である際に前記所定の難語リストに追加して更新するステップと、
    を含むことを特徴とする文書表示方法。
  6. コンピュータに、
    請求項5に記載の文書表示方法を実行させるためのプログラム。
JP2015082265A 2015-04-14 2015-04-14 文書表示装置、文書表示方法及びそのプログラム Expired - Fee Related JP6502732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015082265A JP6502732B2 (ja) 2015-04-14 2015-04-14 文書表示装置、文書表示方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015082265A JP6502732B2 (ja) 2015-04-14 2015-04-14 文書表示装置、文書表示方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2016201057A JP2016201057A (ja) 2016-12-01
JP6502732B2 true JP6502732B2 (ja) 2019-04-17

Family

ID=57424414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015082265A Expired - Fee Related JP6502732B2 (ja) 2015-04-14 2015-04-14 文書表示装置、文書表示方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP6502732B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020241966A1 (ko) * 2019-05-31 2020-12-03 브로콜릭 주식회사 언어 독해 학습 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140721A (ja) * 2005-11-16 2007-06-07 Hitachi Ltd 文書専門度取得プログラム
JP5194903B2 (ja) * 2008-03-12 2013-05-08 ヤマハ株式会社 教材編集装置
JP2014115908A (ja) * 2012-12-11 2014-06-26 Canon Inc 単語検索装置及び単語検索方法

Also Published As

Publication number Publication date
JP2016201057A (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
KR101005337B1 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
US8874590B2 (en) Apparatus and method for supporting keyword input
KR101695011B1 (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
WO2012011092A1 (en) System, method and device for intelligent textual conversation system
CN113076735B (zh) 目标信息的获取方法、装置和服务器
WO2011111038A2 (en) Method and system of providing completion suggestion to a partial linguistic element
JP2004145541A (ja) チャットシステム
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN103218368A (zh) 一种挖掘热词的方法与装置
US20140019464A1 (en) Preference visualization system and censorship system
JP6011180B2 (ja) ファセット生成装置、ファセット生成方法及びファセット生成プログラム
Hossein et al. Predicting motion picture box office performance using temporal tweet patterns
JP6502732B2 (ja) 文書表示装置、文書表示方法及びそのプログラム
CN113077312A (zh) 酒店推荐方法、系统、设备及存储介质
JP5265597B2 (ja) 文書品質評価システムおよび文書品質評価プログラム
Khatoon Real-time twitter data analysis of Saudi telecom companies for enhanced customer relationship management
JP2001209655A (ja) 情報提供装置、情報更新方法、情報提供プログラムを記録した記録媒体、及び情報提供システム
CN109829744A (zh) 基于自然语言处理的咨询方法、装置、电子设备及介质
KR101265467B1 (ko) 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
JP2005032197A (ja) 情報解析システム及び方法
CN110851560A (zh) 信息检索方法、装置及设备
JP2007041946A (ja) 政治家評価システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190322

R150 Certificate of patent or registration of utility model

Ref document number: 6502732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees