JP2005050156A - コンテンツの置換方法及びシステム - Google Patents

コンテンツの置換方法及びシステム Download PDF

Info

Publication number
JP2005050156A
JP2005050156A JP2003281892A JP2003281892A JP2005050156A JP 2005050156 A JP2005050156 A JP 2005050156A JP 2003281892 A JP2003281892 A JP 2003281892A JP 2003281892 A JP2003281892 A JP 2003281892A JP 2005050156 A JP2005050156 A JP 2005050156A
Authority
JP
Japan
Prior art keywords
content
replacement
character string
language
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003281892A
Other languages
English (en)
Inventor
Toshiyuki Tani
俊行 谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2003281892A priority Critical patent/JP2005050156A/ja
Publication of JP2005050156A publication Critical patent/JP2005050156A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】日常生活の中でより自然に外国語を学習できるシステムを作ること。
【解決手段】よく知っている言語(母国語)によるコンテンツに存在する文字列(単語等)を、学習対象とするよく知らない言語(外国語)の文字列(単語等)に置換したものを教材とする。つまり、母国語のコンテンツの中の一部の単語等を外国語に置換し、母国語の文脈の中で外国語の単語等を、新しい母国語の単語を学習するかのように学習できるようにする。
【選択図】 図1

Description

本発明は、コンテンツを置換する方法及びシステムに関する。
従来、人々は、外国語を学習するために、様々な教材を利用してきた。教材には、紙を媒体とするものとして、教科書、対訳テキスト、辞書、その他の本や雑誌、それらのシリーズもの、単語カード等、視聴覚教材として、オーディオテープ、ビデオテープ、CD、DVD等、放送媒体として、テレビ番組やラジオ番組がある。近年、コンピュータやインターネットを利用した、学習用ソフト、e-ラーニング、テレビ電話、インターネット放送局、が出現している。
特開平10−27175号公報(全文)
従来の教材は、どれも外国語を勉強するという心構えを持ち、意識的に学習するためのものである。生活や仕事をする上で自然に覚えるためのものではない。これらの教材を利用して意識的に学習することは、多くの場合、学習者にとって苦痛であり、必要に迫られてなければ身につかず、応用する場面もなく、続かないことも多い、ということになりがちである。既に母国語で考える頭脳が出来上がってしまった大人にとっては、音読等の単純繰り返しが効果的であるとわかっていても、退屈で挫折することが多い。
本発明の課題は、日常生活の中でより自然に外国語を学習できるシステムを作ることである。
上記課題を解決するために、よく知っている言語(母国語)によるコンテンツに存在する文字列(単語等)を、学習対象とするよく知らない言語(外国語)の文字列(単語等)に置換したものを教材とする。つまり、母国語のコンテンツの中の一部の単語等を外国語に置換し、母国語の文脈の中で外国語の単語等を、新しい母国語の単語を学習するかのように学習できるようにする。また、コンテンツそのものにも工夫を加える。
請求項1の発明は、置換辞書として、第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶し、第1の言語によるコンテンツを入力し、前記記憶した見出し語の中から、前記入力したコンテンツに含まれた、1つ以上予め指定した個数以下の見出し語を選択し、前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、前記コンテンツ中に出現した見出し語を、前記選択した見出し語毎に関連付けて記憶したいずれかの置換語に置換し、前記置換したコンテンツを出力する、ことを含むコンテンツの置換方法、である。
請求項2の発明は、置換辞書として、第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶する記憶手段と、第1の言語によるコンテンツを入力する入力手段と、前記記憶した見出し語の中から、前記入力したコンテンツに含まれた、1つ以上予め指定した個数以下の見出し語を選択する選択手段と、前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、前記コンテンツ中に出現した見出し語を、前記選択した見出し語毎に関連付けて記憶したいずれかの置換語に置換する置換手段と、前記置換したコンテンツを出力する出力手段と、を有するコンテンツの置換システム、である。
請求項3の発明は、置換辞書の見出し語が第1の言語によるコンテンツに出現する出現頻度に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法、である。
請求項4の発明は、置換辞書の見出し語それぞれに重み値を関連づけて記憶し、前記見出し語それぞれの重み値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法、である。
請求項5の発明は、置換辞書の置換語それぞれに習熟値を関連づけて記憶し、前記置換語それぞれの習熟値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法、である。
請求項6の発明は、予めコンテンツに使用するタグそれぞれに強度値を割り当て、入力したコンテンツに出現する置換辞書の見出し語それぞれに添えられたタグの強度値の合計値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法、である。
請求項7の発明は、少なくとも請求項3から6に記載のいずれかの優先順位を決める方法から、2以上n個の任意の方法を組み合わせた方法のいずれかを利用したコンテンツの置換方法であって、置換辞書の見出し語に前記組み合わせたn個の方法を適用してn個の優先順位x1,x2,…,xnを求め、前記求めた優先順位を項とする関数f(x1,x2,…,xn)の値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法、である。
請求項8の発明は、請求項1及び請求項3から8に記載したいずれかの方法を実行させるためのコンテンツの置換処理プログラム、である。
請求項9の発明は、請求項1及び請求項3から8に記載したいずれかの方法を実行させるためのコンテンツの置換処理プログラムを記録したコンピュータ読み取り可能な記録媒体、である。
請求項10の発明は、第1の言語の文字列からなる見出し語と、前記見出し語の重み値と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶した置換辞書、である。
請求項11の発明は、第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、前記置換語毎の習熟値と、を関連付けて1組以上記憶した置換辞書、である。
請求項12の発明は、置換語の習熟度合いを入力できる入力画面を出力し、前記入力画面に対する入力データを読み取り、前記読み取った入力データに基づき、置換辞書に習熟値が存在すれば前記習熟値を変更し、存在しなければ重み値を変更する、置換辞書の設定値変更方法、である。
請求項13の発明は、本文が第1の言語によるコンテンツであって、前記コンテンツの本文に含まれる文字列から学習対象とする文字列を1以上抽出した文字列のリストを前記コンテンツに添付したコンテンツ、である。
請求項14の発明は、本文が第1の言語によるコンテンツであって、前記コンテンツの本文に含まれる文字列から学習対象とする文字列を1以上抽出したそれぞれの文字列に第2の言語による1以上の文字列を関連付けたリストを前記コンテンツに添付したコンテンツ、である。
請求項15の発明は、本文が第1の言語によるコンテンツであって、少なくとも、第1の言語の文字列と、前記文字列を代替する代替番号とを、1組以上関連付けて前記コンテンツに添付し、前記コンテンツの本文に含まれる前記代替番号のある文字列を前記代替番号に置き換えたコンテンツ、である。
請求項16の発明は、本文が第1の言語によるXML形式のコンテンツであって、第1の言語の文字列を要素の内容とし、前記文字列に意味が同じ第2の言語による文字列を前記要素の属性値として1以上記述した要素、を含むコンテンツ、である。
請求項17の発明は、本文が第1の言語によるXML形式のコンテンツであって、第1の言語の文字列を要素の属性値とし、前記文字列に意味が同じ第2の言語による文字列を前記要素の内容として1以上記述した要素、を含むコンテンツ、である。
請求項18の発明は、本文が第1の言語によるコンテンツであって、前記コンテンツの本文において、文字列として切り分けるそれぞれの位置に、文字列切り分け文字として予め定めた文字を1以上挿入したコンテンツ、である。
請求項19の発明は、第1の言語の文字列と第2の言語の文字列とが混在したコンテンツであって、文末に近いほど、第1の言語の文字列に対する第2の言語の文字列が占める比率が相対的に高くなるようにしたコンテンツ、である。
請求項20の発明は、第1の言語の文字列と第2の言語の文字列とが混在したコンテンツであって、文末に向かう任意の位置で、第2の言語の文字列に置換した第1の言語の文字列は、その位置以降に出現する場合においても、同様に置換したコンテンツ、である。
請求項21の発明は、請求項13から20に記載したコンテンツのいずれかを記憶したコンピュータ読み取り可能な記録媒体、である。
請求項22の発明は、コンテンツを提供するコンテンツサーバであって、クライアントからコンテンツの送信要求を受信する受信手段と、前記クライアントの機能を識別する識別手段と、前記クライアントからの送信要求に基づき、前記識別手段で識別した結果により前記クライアントに適合したコンテンツを前記クライアントに送信する送信手段と、を有するコンテンツサーバ、である。
請求項23の発明は、コンテンツを提供するコンテンツサーバであって、クライアントからコンテンツの送信要求を受信する受信手段と、前記クライアントの機能を識別する識別手段と、前記クライアントからの送信要求に基づき、前記識別手段で識別した結果により文字コードを予め用意された文字コードに対応する文字パターンの画像ファイルへのリンクに置き換える文字画像置換手段と、前記置換したコンテンツを前記クライアントに送信する送信手段と、を有するコンテンツサーバ、である。
請求項24の発明は、コンテンツを入力する入力手段と、前記入力したコンテンツを表示する表示手段と、前記入力したコンテンツから文字列を選択する文字列選択手段と、前記選択した文字列を置換する置換文字列を入力する置換文字列入力手段と、前記入力したコンテンツに含まれている前記選択した文字列と同じ文字列を、前記入力した置換文字列に置換する置換手段と、を有するコンテンツの置換システム、である。
請求項25の発明は、コンテンツを入力する入力手段と、前記入力したコンテンツを表示する表示手段と、前記入力したコンテンツから文字列を選択する文字列選択手段と、前記選択した文字列を置換する置換文字列を入力する置換文字列入力手段と、前記選択した文字列がある位置以降において、前記入力したコンテンツに含まれている前記選択した文字列と同じ文字列を、前記入力した置換文字列に置換する置換手段と、を有するコンテンツの置換システム、である。
本発明により効果的に外国語を学習することができる。よく知っている母国語の文脈の中でよく知らない外国語の単語等を学習できるため、学習の効率があがるとともに苦痛も少ない。以下、本発明の効果を列挙する。
(1)母国語のコンテンツに存在する一部の文字列を外国語に置換することにより、母国語の文脈の中で外国語の単語を自然に学習することができる。
(2)コンテンツ中の文字列を外国語に置換することにより、Webページを教材に変身させることができる。
(3)コンテンツ上の出現頻度が高い文字列から優先して学習することができる。
(4)コンテンツに存在する一般的に重要な文字列から優先して学習することができる。
(5)コンテンツに存在する習熟していない文字列から優先して学習することができる。
(6)コンテンツに存在するコンテンツ上で重要な文字列から優先して学習することができる。
(7)コンテンツに存在する文字列の学習優先度を複合的に判断し、学習することができる。
(8)利用者の習熟度を置換辞書に反映でき、結果として学習する文字列の優先度に反映することができる。
(9)コンテンツに存在する学習対象の文字列のリストを添付することで、置換処理を軽減することができる。
(10)コンテンツに存在する学習対象の文字列とその置換語を添付することで、置換処理を軽減することができる。
(11)コンテンツに存在する学習対象の文字列に代替番号を付すことで、置換処理を軽減することができる。
(12)XML形式のコンテンツで、母国語を要素の内容とし、外国語を要素の属性値とすることにより、置換対象とする文字列とその置換語をコンテンツに埋め込んでおくことができる。
(13)XML形式のコンテンツで、母国語を要素の属性値とし、外国語を要素の内容とすることにより、母国語によるコンテンツに変換することができる。
(14)コンテンツに文字列切り分け文字を入れることにより、コンテンツの置換処理を軽減することができる。
(15)文末に近いほど外国語の占有率を多くした母国語と外国語が混在したコンテンツとすることにより、段階的に外国語に慣れる学習を可能とすることができる。
(16)コンテンツ上で文末に向かう途中、外国語に置換した文字列はそれ以降全て置換することにより、繰り返して同じ外国語が出現し、段階的な学習を可能とすることができる。
(17)コンテンツサーバは、コンテンツを要求したクライアントの機能を識別し、提供するコンテンツを切り替えることで、当該クライアントに適合したコンテンツを送信することができる。
(18)コンテンツサーバは、コンテンツを要求したクライアントの機能を識別し、文字コードを画像化することで、対応するフォントを持たないクライアントにもコンテンツを送信することができる。
(19)コンテンツから文字列を選択し、コンテンツ中の同じ文字列を全て外国語に置換し、母国語と外国語が混在したコンテンツを作成することができる。
(20)コンテンツから文字列を選択し、以降に存在する同じ文字列を全て外国語に置換し、文末に近いほど外国語の占有率を多くした母国語と外国語が混在したコンテンツを作成することができる。
本発明は、コンテンツの利用者の単語力を向上させようとするものである。通常、利用者の母国語以外の言語を学ぶことを主な目的とするが、母国語の単語の言い換えや新しい単語を学ぶことに利用することもできる。以下では、主に母国語が日本語で外国語が英語であるとした例で説明する。
例えば、日本人の母国語は日本語である。子供の頃から、ひらがな、カタカナ、漢字を習い、ある時期からローマ字を習う。その後、英語を習い、場合によっては第2外国語として、ドイツ語やフランス語や中国語等を学ぶ。
一方、日本語では外来語をカタカナ表記で取り入れている。特にコンピュータの分野等では顕著である。また、日本国政府及び地方自治体などにおいて、アクションプラン(行動計画)とか、フィジビリティスタディ(実現性調査)とか、わざわざ英語を使う例が多い。そして、英語の勉強に苦労している割には、カタカナ表記の外来語は、日本語の単語であるかのように、あまり苦労せずにいつのまにか使えるようになっている。
このことは、言語中枢が日本語でできあがった大人にとって、文全体が英語である文脈で英単語を覚えるより、日本語の文脈の中であたかも日本語の単語のように外国語の単語を覚える方が覚えやすいということを示唆している。文字は英字だが、日本語の文脈で新しい日本語の単語を覚えることに近い。しかも、英語の単語をカタカナで表現していればさらに違和感は少なくなる。
つまり、母国語の文脈の中に外国語の単語が出てくれば、言葉を理解するための注意力はそれだけに集中すればよい。全体が外国語の文脈の中で覚えるより心理的な負担を少なくして覚えられるということである。また、日本語の文脈は知ってることが多いので、単語の意味をなんとなく類推できるということもある。さらに、既に頭の中に出来上がった日本語の知識ネットワークを有効に用いて、日本語の単語との意味のネットワークを作りやすいということも利点である。
これとは逆に、知らない単語が多い外国語文の中では、全体の意味内容もわからず、特定の単語の意味を推測することも難しい。頭の中の単語のネットワークにひっかからない、手がかりがない、ということである。それに文化的背景が異なることが多いが、文化的背景の異なる文章は分かりにくい。例え母国語で書かれていてもピンと来ないことがある。背景となる知識がないためである。
なお、日本人にとっては、長年、ローマ字や英字を習っても、英字表記の英単語には心理的抵抗が残っているであろうし、外国語もカタカナ表記の方が覚えやすいだろう。ただし、例えば、JPOのように頭文字をとった省略文字は「ジェイピーオー」と書かれるより、英字のままの方が読みやすいだろう。
非特許文献1の調査によると、外国語を使わざるを得ない環境に身を置くのが一番学習効果が上がるが、その次は文章を多量に読むことである。
以上のことから言えることは、日本語文書の文脈の中で外国語の単語を覚えればよいということである。しかも、最初はカタカナ表記の方が心理的な負担が少ない。記憶中心のものは意識的に学習するのは疲れるし飽きる。外国語の学習は特にそうである。しかし、外国語を組み込んだ日本語文書を多量に読むことは、文章の意味内容を理解する精神活動や集中が必要であっても、組み込まれた単語の学習としては小さい負担で済むと考えられる。
外国語と日本語では、単語の適用範囲の違いや意味にずれがあることがある。適用範囲や意味は文脈の中で理解していくものであると考えられるが、その単語がどういう意味として使われれ、どういう範囲で、どういうことに使われるのか、を日本語の文脈の中で実感することができる。
外国語学習には継続性が必要であるが、意識的に勉強するのは疲れるので続かないことが多い。一方、知的労働が多くなった現代人は、日常的に多くの文章を読む必要がある。そのときに、少しづつ外国語を学べばよい。その場合、学習用に用意されたテキストファイルを利用するのもよいが、最近特に見ることが多くなったWebページを閲覧するときに学習の機会を作ればよい。つまり、Webページに含まれるいくつかの単語を外国語表記やカタカナ表記に置き換えることにより、自然と外国語のボキャブラリを強化するチャンスを増やすという方法である。
すると、Webページという普段利用しているコンテンツが、文脈の中で外国語を学習する教材となる。文脈の中で自然と使い方を覚える。異なる文脈の中で単語が何回か出現すれば、推測して読み進めることができる。また、予め学習用教材として与えられた教科書で勉強する場合は、コンテンツとしての変化がないし、刻々と変化する実生活の世界を反映したものでもないので、退屈してしまうが、Webページを利用する場合は退屈な繰り返しとはならない。世の中と歩調を合わせて刻々と内容が変化するWebページを活用すれば、リアリティ性があるし、構えずに自然に学習でき、また一番安価であろう。
日本語のコンテンツを利用する場合は、例えば、置換語である外国語を外来語のようにカタカナで表記することが有効である。一般の日本人にはカタカナの方が読みやすくなじみやすいので、まず外国語をカタカナで表現したもので覚えるようにしてもよい。カタカナ表現に慣れた後で、外国語の文字による表記にして、段階的に覚えるのが楽だろう。もちろん、最初から外国語の文字で覚えてもかまわない。
日本語におけるカタカナに当たるものがない言語もある。アルファベット等表音文字を中心に用いる言語を母国語とする人が日本語を学習する場合は、いきなり漢字やひらがな等で表記されるより、その人の母国語の表音文字で表記した方がなじみやすいと思われる。表音文字中心の人が中国語を学ぶ場合、いきなり中国語の漢字が出るより、ピンインの表記がよいだろう。しかし、日本人が中国語を学ぶ場合は、最初から中国語の漢字表記でよいだろう。
例えば、日本語によるコンテンツで、日本語の単語を外国語の単語のカタカナ表現に置換した場合、正確な発音が表現できないという異論もあろう。しかし、本発明は、外国語のボキャブラリを増やすのが目的である。カタカナ表記が発音記号のようには原音を表現できないことは課題ではない。それに、コンテンツに音声データを埋め込んだり、音声データのファイルをリンクすることにより、原音を聞けるようにできる。
以下、本発明の実施の形態について、図を参照して詳細に説明する。なお、以下の説明では、日本語を中心とするコンテンツを用いて、英語を学習する場合を例として書くが、他の言語に置き換えることもできる。
<定義>
本発明において、母国語には利用者が使いこなせる言語を含む。学習対象とする言語は外国語と言う。
本発明において、入力には受信を含む。出力には送信を含む。
本発明において、文字列の置換とはコンテンツ中に存在する元の文字列を削除又は隠して新しい文字列に置き換えることを言う。新しい文字列には元の文字列を例えば括弧書きやルビのようにして含めてもよい。「隠して」とは、例えば、XML形式のコンテンツの中で、元の文字列を属性値など通常の表示では表示されないような方法で保持しておくことである。
本発明において、文字列とは、意味を持つ最小単位以上の長さの文字の列である。小は単語の一部分、大は文書全体を含む。文字列は空白文字を含むことがある。文字列をマッチングする場合等では、複数の空白文字は一つの空白文字に等しいとみなして扱うことになる。
本発明において、コンテンツとは、文字列で記述された本文を含むデータである。複数のファイルからなることもある。その一部に外来語や他の言語の文字列が含まれているものを含む。コンテンツや文字列には音声によるものを含む。コンテンツのフォーマット形式は、テキスト、HTML、定義されたタグで記述したXMLデータ、音声データ、映像データ、等である。ダイナミックに生成するコンテンツや放送として提供される音声や映像を含む。
コンテンツには、メールメッセージ、インスタントメッセージングやチャットのメッセージ、ファイル、Webページ、音声データ、等の形態がある。コンテンツには、本文に付加情報が添付されたものがある。添付される付加情報は、コンテンツのヘッダーに置かれたり、添付ファイルとして置かれたり、URLでリンクとして置かれる。本発明ではヘッダーにはトレーラを含む。画面に表示できるコンテンツの本文は通常、ウインドウ内に表示される。HTML等のコンテンツでは、ヘッダ以外の部分を本体(ボディ)と言う。
本発明において、第1の言語とはコンテンツ本文を記述した言語である。通常、コンテンツの利用者がよく知っている言語(母国語)である。コンテンツ本文は第1の言語の文字列のみからなるものであるとは限らない。第1の言語には、国語辞典や新語辞典に掲載されている認知された外来語を含む。外国語を説明するための記述や引用文などでも外国語が含まれる。
第2の言語とは第1の言語とは異なる言語である。しかし、母国語の単語の言い換えや新しい言葉などの単語力を向上させる場合は同じ言語でもよい。つまり、コンテンツの利用者が学習対象とする言語である。また、一つの外国語を特定して学習するのではなく、同時に複数の言語を学習する場合は、第2の言語は複数の言語、つまり多言語となる。
第1の言語を母国語とすると、通常、第2の言語は学習したい外国語となるが、例えば、ひらがなが読める日本人の子供に漢字を教える場合は、第1の言語をひらがなとし、第2の言語を漢字としてもよい。
外国語を外来語のように学習したり外来語を学習する場合は、例えば、第1の言語は日本語で、第2の言語は日本語に対応する外国語をカタカナ表記したものになる。つまり、第2の言語の文字列には、第2の言語の文字列の読みを第1の言語で記述した文字列を含む。例えば、第1の言語が日本語で第2の言語が英語で、第1の言語の文字列が「特許」である場合、第2の言語の文字列は「PATENT」で、その読みを第1の言語で記述すると「パテント」となる。この場合は、英語のカタカナ表記である。
第2の言語の文字列には、第2の言語の文字列を画像とした画像データやその画像データへのリンクを含む。文字コードとしての文字列に基づき、その文字列が画像となった一つの画像ファイルとして生成してもよいが、予め置換語毎に文字列を画像化した画像ファイルを用意したり、文字1文字づつを画像ファイルにしておいて利用してもよい。画像にした文字は、文字サイズ毎に用意してもよい。
1文字づつ画像ファイルにしたファイルの蓄積は、ディレクトリを分けるとか、ファイル名に文字コードを使うと便利である。例えば、フォントサイズが40ドット又は40ポイントの文字を画像ファイルとして、「40/文字コード.GIF」というディレクトリ名とファイル名で表現したり、「文字コード40.GIF」というファイル名で表現する。文字コードは16進コードや区点コードとして表記してもよいし、リンクで指定するファイル名と対応関係が正しければ他のコード体系でもよい。
本発明において、コンテンツサーバとは、クライアントにコンテンツを提供するコンピュータである。クライアントとは、コンテンツサーバにコンテンツを要求し、コンテンツサーバからコンテンツを受信するコンピュータであって、端末及び仲介コンピュータを言う。通常、仲介コンピュータとは、コンテンツサーバと端末との交信を仲介するコンピュータである。端末とは、利用者が利用するコンピュータであって、パソコン、PDA、携帯電話、ホームサーバ、等のコンピュータである。地上波放送、放送衛星や通信衛星による衛星放送、CATV等による音声や動画像については、ラジオやテレビ等の受信端末、媒体による音声や動画像については、テープレコーダ、CD、DVD等のAV機器が該当する。これらをオフラインで使用している場合も端末と言う。
コンテンツの提供が放送の形態を取る場合、地上波放送、衛星放送、CATV、インターネット放送等がある。ビデオオンデマンドでは利用者がコンテンツを選択できるが、通常の放送ではコンテンツを要求するのではなく、放送局から同報されているコンテンツの中から利用者が選局して受信する。そしてコンテンツを置換するのは受信側であるのが普通である。
<請求項1の発明:置換方法>
請求項1の発明は、「置換辞書として、第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶し、第1の言語によるコンテンツを入力し、前記記憶した見出し語の中から、前記入力したコンテンツに含まれた、1つ以上予め指定した個数以下の見出し語を選択し、前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、前記コンテンツ中に出現した見出し語を、前記選択した見出し語毎に関連付けて記憶したいずれかの置換語に置換し、前記置換したコンテンツを出力する、ことを含むコンテンツの置換方法。」、である。
本発明において、第1の言語の単語等の文字列を見出し語、その見出し語に対応する第2の言語の単語等の文字列を置換語と言う。第1の言語の見出し語に対応する第2の言語の置換語は、同義であり置換可能なものである。そして、見出し語と1以上の置換語を関連付けて1組以上記憶したものを置換辞書と呼ぶ。置換辞書については、後述の請求項10及び11の説明で詳しく述べる。
<文字列の単位>
本発明における文字列は、意味を有する文字列である。空白文字を含んだ文字列でもよい。見出し語や置換語となる文字列の単位としては、単語のほかに、接頭辞、語根、接尾辞、文節、句、文、段落、節、章、ページ、文書、等があるが、例えば、1頁全文置換したら母国語の文脈の中で外国語の単語等を覚えるということにならないので、熟語や慣用句のようなものは別として、せいぜい単語数個以内からなる文字列とする。
単語より小さい単位の、接頭辞、語根、接尾辞、も辞書に登録して置換対象とすることができる文字列である。例えば、「電子政府」を「e政府」とか「eガバメント」に、置換するような場合がある。
<空白文字等>
コンテンツから文字列を検出する場合、コンテンツの文字列の中に連続した複数の空白文字(空白やTAB等)がある場合は一つの空白とみなす。改行(改行を示す行末文字はOSによって異なる。あるOSではCR+LF、あるOSではCR、あるOSではLF、である。)は無視する。また、英文等における慣例として、行をまたがる1単語をハイフォン(-)でつないでいる場合(通常、音節で区切る)は、改行やハイフォンを無視して連続しているとみなす。
HTMLでは、スペース文字(0x20)、水平タブ(0x09)、行送り(0x0A、LF)、リターン文字(0x0D、CR)、改ページ(0x0c)及びUnicodeの幅なしスペース文字(0x200B)が、空白文字である。空白文字はその前後にある単語の境界として扱われる(pre要素の場合を除く)。ブラウザはWebページを表示する際、その環境(使用言語や出力媒体)にふさわしい形で単語境界を扱う。単語境界は、英語などでは通常スペース文字に相当するので、多くのブラウザでは改行やスペースがあるとそれを1つのスペース文字に置き換えて表示する。日本語では単語の区切りに空白を置かないので、日本語対応ブラウザは空白文字部分を切りつめて表示する。日本語文字の間に一つの改行がある場合、つながって表示されるが、日本語文字の間に二つの改行がある場合は、1バイトのスペース文字1つとして表示される。
<置換方法>
図1は、請求項1の説明図である。
見出し語202と1以上の置換語204を関連付けた置換辞書201を用意しておき、第1の言語のコンテンツ300を入力する(401)。入力したコンテンツから、1つ以上予め指定した範囲内の個数の見出し語202を選択する(501)。選択した見出し語がそれぞれコンテンツに含まれる個数の範囲内で、コンテンツ中に存在する選択した見出し語と同じ文字列を、当該選択した見出し語202に対応した置換語204のいずれかに置換する(601)。そして、置換したコンテンツを出力する(701)。
本発明においては、第1の言語のコンテンツを入力し、その一部の文字列を第2の言語の文字列に置換する。例えば、図2のような日本語のコンテンツを入力し、一部の日本語の単語を英語の単語に置き換え、図3のようなコンテンツを出力する。これにより、利用者は、日本語の文脈の中で英語の単語を学習する。
例えば、日本語コンテンツを英語に置換する場合は、漢字を含む日本語を英語に、あるいは英語発音のカタカナ表記に、外来語等として既にカタカナ表記になっているものは英語に、英語やその略字はそのまま、等とする。英語をカタカナで表現するのは、英字表現ではなくカタカナによる表現を用いる方が日本人にとって読みやすいことが期待できるからである。
一方、日本語から中国語にする場合は、中国語の漢字にする方が日本人にとっては分かりやすい。中国語の発音をローマ字表記で示すより、漢字や簡体字の方が日本人には分かりやすいし、意味も推測しやすいことが期待できる。しかも、日本語と中国語で同じ漢字なのに意味が全く違うような場合は、その違いに驚くことで覚えやすい。
置換方法を、置換後のコンテンツの画面表示の形式として見た場合、例えば次のようなものがある。なお、特に子供向けの場合、置換した文字列に絵文字をつけたり、画像をつけたりすると、親しく楽しむことが期待できる。
(1)元の文字列が置換語に完全に置き換わる。
(2)元の文字列の後ろに括弧をつけて、置換語を入れる。
(3)置換語の後ろに括弧をつけて、元の文字列を入れる。
(4)元の文字列に置換語をルビとして振る。
(5)置換語に元の文字列をルビとして振る。
(6)元の文字列と置換語を、並列2行、上下対訳風、左右対訳風、にする。
(7)置換語に色付けや背景を色塗り(蛍光ペンのような色付け)をする。
(8)置換語を斜体や太字にする。ブリンクさせる。
図2は、第1の言語によるコンテンツの例である。図3は、図2のコンテンツを英語表記に置換した例である。図4は、図2のコンテンツを英語のカタカナ表記に置換した例である。図5は、図2のコンテンツを英語表記と英語のカタカナ表記等が混在した表記に置換したコンテンツである。
第1の言語のコンテンツ300にある文字列「発明」301は、英語表記に置換したコンテンツ810の文字列「invention」811に置換されたり、英語のカタカナ表記に置換したコンテンツ820の文字列「インヴェンション」821に置換されたり、混在した表記に置換したコンテンツ830の文字列「invention(発明)」831に置換されたり、する。図5には、置き換えた文字列「invention(発明)」831の中に、図2の置き換えられる文字列「発明」301を残したり、「発明」に「invention」をルビとして表現(832)したり、「特許出願」に「パテントアプリケーション」をルビとして表現(833)したり、「patent」834のように斜体にしたり、表現方法の例を書いている。
置換には、単純に置換語に置換してしまうか、置換前の文字列も失わない方法で置換する場合がある。失わない方法には、置換後のコンテンツに、旧文字列を、括弧書きやルビとして入れたり、フォント指定を透明又は背景と同じ色として入れておいたり、注釈文として入れておいたり、XML形式のコンテンツなら元の文字列を属性値など通常の表示では表示されないように持ち込んでおいたり、等がある。
日本語を英語に置換する場合、例えば、「すぐれた着想」は「good idea」である。この場合、「すぐれた」のみを置換すると「good 着想」となるが、これよりも、「good な 着想」のように「な」を入れると読みやすい。同様に、「私は考える」つまり「I think」を、「I 考える」とか「私は think」とするより、「I は 考える」とか「私は think する」というようにする方が読みやすい。このように「〜な」とか「〜は」とか「〜する」というような付属語をわざと付ける方が分かりやすい。
日本語の文字列を英語に置換した場合、英単語の前後に空白文字を挿入すると見やすい。日本語で隣り合った2つの単語が2つの英単語に置換される場合、そのままだと置換後の英単語がくっついてしまうため、2つの英単語の間に空白文字を挿入する。
請求項1では、入力したコンテンツの中から一つ以上予め指定した範囲内の個数の見出し語を選択して、置換語に置換するが、その個数制限において、どの見出し語を選択して優先的に置換するかは述べていない。ランダムに選択してもよいし、一定の規則に従って選択してもよい。請求項1で述べているのは、置換する見出し語の個数を制限することと、コンテンツの中に存在する選択した見出し語全てを置換語に置換するとは限らない、ということである。優先順位については請求項3〜7の説明において記述している。
音声のコンテンツを置換する場合、音声認識で音声データを文字コードとしての文字列に変換し、その文字列で置換辞書を検索して置換語に置換する場合がある。この場合でも、音声認識で生じた全体の文字列の該当部分を置換語に置換し、その全体の文字列から音声を合成する、という必要性はない。元の音声データの該当部分の音声データを置換語から合成した音声又は置換語として記憶した音声データに置換し、それ以外の部分は元の音声データを利用すればよい。また、元の音声の特徴を分析して、置換語としての音声を元の音声に似せさせることも必ずしも必要とは限らない。元の音声が男声であって、置換した部分の音声が女声である、というように違いがある方が、置換部分に注意を喚起できる。
入力したコンテンツが画像の場合、画像の中からOCR(Optical Character Reader)機能により、文字列を見つけて文字コードとしての文字列に変換し、その文字列で置換辞書を検索して置換語に置換する場合がある。この場合、元の画像としての文字列の画像サイズを求め、そのサイズ以内で、置換語をイメージ化して画像に埋め戻す必要がある。ただし、イメージとテキストが混在可能な出力形式で出力するのであれば、文字コードとしての置換語で出力してもよい。
<置換の制限>
コンテンツ本文の文字列をあまりにも多く置換語に置換してしまうと、よく知ってる言語の文脈の中で知らない単語等を学習するという本来の目的に添わなくなる。したがって、コンテンツ中の文字列の置換に制限を設ける。
一つの制限は、置換に用いる見出し語としての個数に限度を設けるものである。見出し語としての個数は、ある見出し語がコンテンツの中に存在する個数ではない。ある見出し語がいくつ存在しても見出し語としての個数としては一つである。これはつまり一つのコンテンツの中で、あまり多種類の外国語の単語を出さないということである。置換に用いる見出し語の個数としては、コンテンツの長さにもよるが、例えば、プリントアウトしたときにA4サイズで1頁程度の文章であれば、数個程度以内とするのが適当であろう。長い文章や一連の文章では、局所的に置換語を変えてもよい。
もう一つの制限は、置換対象として選択したある見出し語がコンテンツ中に10個検出しても、全て置換するとは限らないという制限である。例えば、10個のうち近接した3個だけ置換語に置換する場合もある。この制限は、請求項1の「前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、」という部分であり、コンテンツ中にある選択した見出し語全部を置換するわけではないことを指す。
例えば、長文のコンテンツの場合、ある見出し語はある部分で局所的にたくさん検出され、つまり密度が高く、別の見出し語はそれと違う部分で密度が高いということがある。選択した見出し語に等しい文字列を置換する場合、局部的に集中して置換し、密度がまばらなところでは置換しないようにする場合と、逆になるべく分散して置換させる場合がある。
19世紀ドイツの実験心理学者ヘルマン・エビングハウスの忘却学説によれば、記憶は、反復学習をしなければ、時間の経過と共に忘却の一途を辿る。忘却曲線では、忘却は学習を終えてからしばらくの間を置いて始まるのではなく、学習直後に急速に進む。つまり、忘却を防ぐには、学習したら、すぐに復習するのが効果的である。したがって、長文のコンテンツ又は連続したコンテンツでは、なるべく検出した見出し語が集中しているところで、置換語に置換して、読み進めるときに短時間のうちに何度も出現させる方がよいだろう。そして、その部分ではその置換語だけに集中して反復学習させ、その部分に他に置換する見出し語があっても置換しないようにすればよい。
以上の制限方法の例を述べる。例えば、後述する請求項3〜7のいずれかの優先順位の決め方の中から、見出し語に関連付けて記憶した重み値により置換に用いる見出し語の優先順位を決める場合、重み値が大きいものから見出し語を選択し、コンテンツの中にあるかどうか文字列検索をする。検出されれば見出し語に等しいコンテンツの中の文字列を見出し語に対応した置換語に置換する。一つでも置換したら第1のカウンタをインクリメントする。なければ第1のカウンタをインクリメントしない。当該コンテンツの中に、その見出し語と同じ文字列が他にもあれば、それがコンテンツの中で検出された検出個数の範囲内で、同様に置換するが第1のカウンタはインクリメントしない。つまり見出し語の個数を第1のカウンタにカウントする。続いて順次、重み値が大きい見出し語を選択し、以上のことを繰り返す。そして、第1のカウンタが予め設定した個数(実際に置換した見出し語としての個数)になれば、以上の置換処理を止める。また、これに加えて、実際に置換するごとに文字列のバイト数を第2のカウンタにカウントしておいて、前記設定した見出し語の個数の範囲内であっても、置換したバイト数の合計がコンテンツの中で予め定めた比率を超える場合には、以上の置換処理を止めてもよい。
なお、インクリメントではなく、予め定めた個数を第1のカウンタに入れておき、置換した見出し語が増えるたびにデクリメントするようにしてもよい。また、前記バイト数は文字列の個数としてもよい。
<置換の波及範囲>
このように、選択した見出し語をコンテンツ中に検出し、それを置換語に置換するとしても、コンテンツや連続したコンテンツの中で、満遍なく全部を置換するとは限らない。例えば、文脈の前後を読んで置換語の意味を推理できるように同じ見出し語が検出されても飛び飛びに置換したり、逆に、ある範囲内で局所的に集中して置換したりしてもよい。飛び飛びに置換する場合は、例えば、コンテンツ中で検出した文字列がいくつ目かカウントし、2で割り切れる場合のみ置換するとすれば、2つ目のものから1つ飛びに置換することになる。また、例えば、コンテンツから見出し語を検出の都度、乱数を発生させて、乱数が一定の範囲にあるときは置換するようにしてもよい。コンテンツのある範囲内で局所的に集中して置換する場合は、例えば、コンテンツをいくつかに分割して、分割した範囲内に対象とする見出し語がどれだけ出現しているかカウントし、一番多い範囲をその見出し語で置換する範囲とする。あるいは、コンテンツの先頭又は最後の位置から、コンテンツ中に出現した見出し語それぞれの位置を求め、隣り合った見出し語相互の距離を文字の個数やバイト数で計算し、その距離が小さいものが多い部分を置換する範囲とする。
置換を行う範囲には、空間的なものと時間的なものがある。空間的な範囲は一つのコンテンツ又は一連のコンテンツの中での広がりであり、時間的な範囲はコンテンツを置換する前後関係としての広がりである。以上の説明における範囲は、コンテンツの広がりの中での空間的な範囲である。
前者の空間的な置換範囲をさらに詳しく述べると、ある一つの見出し語を置換した場合、他に存在するそれと同じ文字列を置換するかどうか、つまり、コンテンツ上でどこまで反映させるかでいくつかのパターンがある。
例えば、一つのコンテンツの一部に反映させるか、全体に反映させるか、リンク等で関連するコンテンツにも反映させるか、同じサイトや同じディレクトリ等に置かれた一連のコンテンツにも反映させるか、等である。例えば、その段落の範囲内、その文節の範囲内、そのブロックの範囲内、そのページの範囲内、その文全体、に反映させるか。例えば、任意の位置で置換するとそれ以降に出現する文字列も置換するか、それより以前の文字列も置換するか、それ以降定めた置換個数になるまで置換するか。例えば、予めコンテンツで指定した部分に反映させるか。例えば、ランダムに選んだ部分に反映させるか。例えば、同じ文字列でも置換する文字列と置換しない文字列が残るように飛び飛びに置換するか。例えば、その文字列の出現が何番目から何番目のものまでを対象にするか。例えば、コンテンツのどの部分でも同じ程度の置換にするか、あるいは置換が累積して、コンテンツの最後に近くなるほど置換された文字列を増やすように置換するか、等である。
一つのコンテンツで置換対象とした見出し語を、関連するコンテンツや一連のコンテンツまで同様に置換対象として広げる場合、最初のコンテンツで置換に用いた見出し語のリストを記憶しておき、以降の関連するコンテンツや一連のコンテンツを置換するときに、そのリストにある見出し語を優先的に置換する見出し語として選択する。
後者の時間的な範囲によるものとしては、例えば、見出し語や置換語それぞれに前回置換した日時を関連付けて記憶しておき、忘却曲線等を参考にして、なるべく前回の学習と時間が経過しないうちに再学習できるように、優先的に置換対象とする、というような場合である。
<置換の解除>
一つのコンテンツ、関連したコンテンツ又は一連のコンテンツにおいて、空間的な広がり又は時間的な広がりの途中で、置換済み文字列の置換を解除してもよい。置換を必要とするのは学習するときであり、覚えてしまえば元の文字列に戻してもよいからである。コンテンツを速く読んだり、他の単語を文脈の中で覚えやすくしたり、新たに他の単語を学習するために、学習済みになった置換済み文字列を元に戻すということである。つまり、最も効率的に楽に速く覚えれれるようにすればよいのであって、コンテンツの大部分を第2の言語に置き換えることが目的ではないからである。学習されれば特に外国語で表示しつづける必要はなく、別の単語の学習に移ればよい。日本語の文脈の単語を日本語の語順で多量に英単語に置き換えると分かりにくくなる可能性もある。もちろん、練習として外国語表記に慣れるのが目的なら、元に戻さず、そのコンテンツ中でだんだん外国語が占める割合を増やしてもよい。
置換を解除する条件としては、例えば、次のようなものがある。
(1)置換語の表示個数が予め設定した個数を超える。
(2)置換語の表示時間が予め設定した時間を超える。
(3)習熟値を測定するテストで正解した。
(4)習熟値の設定で既知であると入力した。
(5)置換済みコンテンツで置換のやり直しを試みた。
(6)置換に用いる置換辞書を切り替えた。
置換を解除するには、置換システムの置換機能を停止又は回避して、コンテンツのリソースからコンテンツを再取得すればよい。また、例えば、取得済みのコンテンツがXML形式で置換語に置換された元の文字列を属性値として保持している場合、属性値を要素の内容に変換してもよい。置換機能を停止又は回避しない場合に、コンテンツのリソースからコンテンツを再取得すると、置換対象となる見出し語の優先順位の変化により、別の文字列が置換されることがある。
なお、習熟値の設定で学習済みとした見出し語が、それ以降、一切、置換語に置換することがないというわけではない。学習者が忘れることもあるし、記憶の強化策として、例えば、予め設定した時間経過後とか、習熟値を測定するテスト問題に含めたが回答できなかったときとか、に習熟値を下げて置換対象になるようにしてもよい。置換辞書からその見出し語を削除した場合は、置換辞書に再登録又は置換辞書を再構築しない限り、置換対象として選択されない。ただし、請求項14等のように、コンテンツに置換辞書又は置換辞書に代わる情報が添付されている場合はその限りではない。
<置換や解除のタイミング>
置換やその解除のタイミングとしては、コンテンツを再要求したとき、コンテンツを再読み込みしたとき、ページを進めるとき、ページを戻るとき、習熟値の設定等の操作をしたとき、等がある。
<請求項2の発明:置換システム>
請求項2の発明は、「置換辞書として、第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶する記憶手段と、第1の言語によるコンテンツを入力する入力手段と、前記記憶した見出し語の中から、前記入力したコンテンツに含まれた、1つ以上予め指定した個数以下の見出し語を選択する選択手段と、前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、前記コンテンツ中に出現した見出し語を、前記選択した見出し語毎に関連付けて記憶したいずれかの置換語に置換する置換手段と、前記置換したコンテンツを出力する出力手段と、を有するコンテンツの置換システム。」、である。
図6は、請求項2のコンテンツの置換システムである。
コンピュータ100は、見出し語と置換語を関連付けて記憶する記憶手段200と、コンテンツ300を入力する入力手段400と、コンテンツから見出し語を選択する選択手段500と、コンテンツに含まれた見出し語を置換語に置換する置換手段600と、置換したコンテンツを出力する出力手段700と、を含む。
見出し語と置換語を関連付けて記憶する記憶手段200は、ファイル、データベース、データベース内のテーブル、あるいはメモリ上のテーブルである。通常、置換を実行するコンピュータ100にローカルに存在するが、リモートコンピュータや別サーバにあってもよい。
見出し語を選択する選択手段500や置換語に置換する置換手段600は、通常、コンピュータ100で実行されるプロセスであるが、リモートコンピュータで実行してもよい。
入力手段400は、ファイルを読み取る手段や他のコンピュータとの通信手段である。出力手段700は、他のコンピュータと通信する手段、ファイルに出力する手段、画面に表示する手段及びプリンタに印刷する手段等である。
図7は、請求項2のコンテンツの置換システムの形態を示す図である。
コンテンツの置換は、どのコンピュータで実行するかにより、コンテンツを提供するコンテンツサーバ110でする場合と、仲介コンピュータ120でする場合と、利用者の端末130でする場合(ローカル又はリモートのファイルのコンテンツをスタンドアロンで扱う場合を含む。)と、がある。仲介コンピュータ120はインターネットにおける代理サーバのように、コンテンツサーバ110と端末130の間で交信を仲介し、その仲介するコンテンツに対して置換を行うものである。
本発明上では、これらの形態の違いは主に送受信を含む入出力手段の違いである。例えば、コンテンツサーバ110は、記憶又は生成した第1の言語によるコンテンツを入力する入力手段と、置換したコンテンツをクライアントに送信する送信手段と、を有する置換システム、である。仲介コンピュータ120は、第1のコンピュータ(通常はコンテンツサーバ)と第2のコンピュータ(通常は端末)との通信を仲介するコンピュータであって、第1のコンピュータから第1の言語によるコンテンツを受信する受信手段と、置換したコンテンツを第2のコンピュータに送信する送信手段と、を有する置換システムである。端末130は、コンテンツサーバから(仲介コンピュータの経由を含む)第1の言語によるコンテンツを受信する受信手段と、置換したコンテンツを端末画面に表示する表示手段と、を有する置換システムである。また、端末130は、コンテンツをローカル又はリモートのファイルとして入力する入力手段や、置換したコンテンツをファイルとして出力する出力手段を備えた置換システムである。
コンテンツは、通常、コンテンツサーバ110又は端末130に存在する。あるいは、コンテンツサーバで動的に生成されるように準備されている。コンテンツサーバがクライアントに内容が固定したコンテンツを提供する場合は、予め置換したコンテンツを用意しておいてもよい。また、何種類かのコンテンツを用意しておき、端末の機能を識別して用意したコンテンツを切り替えて送信してもよい。特別に作成するコンテンツについては請求項13〜20の説明で詳細に述べる。
コンテンツの置換は、コンテンツサーバ、仲介コンピュータ又は端末のいずれかで行うが、置換したシステム以外で置換してはいけないということはない。つまり、それらのシステムのうち2箇所以上でコンテンツの置換を重複して行うこともありえる。また、例えば、置換したコンテンツを端末で表示している場合、いずれかのシステムでその置換済みのコンテンツをさらに置換させてもよい。もちろん、いずれかのシステムのみで置換するようにしてもよい。
本発明における仲介コンピュータは、インターネットの代理サーバ(Proxyサーバ)にコンテンツの置換機能を持たせたようなシステムを想定できるが、それだけではなく、メールサーバにコンテンツの置換機能を持たせてもよい。同様に端末では、インターネットのブラウザにコンテンツの置換機能を持たせたようなシステムを想定できるが、メーラーにコンテンツの置換機能を持たせてもよい。また、チャットやインスタントメッセージングに関連して、それらのサーバあるいはクライアントソフトにコンテンツの置換機能を持たせてもよい。これらは全て本発明で言うコンテンツの置換システムに含まれる。
<請求項3〜7の発明:置換の優先順位>
請求項3〜7の発明は、置換対象とする見出し語を選択し、かつ、選択した見出し語のどれを優先的に置換対象とするか、の違いを示している。なお、本発明においては、見出し語の選択がすべて終わった後で、置換を行うとは限らない。置換の結果が置換対象とする見出し語の選択個数に影響する場合のように選択と置換を同時に行うこともある。
請求項3の発明は、「置換辞書の見出し語が前記第1の言語によるコンテンツに出現する出現頻度に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。」、である。
請求項4の発明は、「置換辞書の見出し語それぞれに重み値を関連づけて記憶し、前記見出し語それぞれの重み値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。」、である。
請求項5の発明は、「置換辞書の置換語それぞれに習熟値を関連づけて記憶し、前記置換語それぞれの習熟値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。」、である。
請求項6の発明は、「予めコンテンツに使用するタグそれぞれに強度値を割り当て、入力したコンテンツに出現する置換辞書の見出し語それぞれに添えられたタグの強度値の合計値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。」、である。
請求項7の発明は、「少なくとも請求項3から6に記載のいずれかの優先順位を決める方法から、2以上n個の任意の方法を組み合わせた方法のいずれかを利用したコンテンツの置換方法であって、置換辞書の見出し語それぞれについて、前記組み合わせたn個の方法を適用してn個の優先順位x1,x2,…,xnを求め、前記求めた優先順位を項とする関数f(x1,x2,…,xn)の値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。」、である。
請求項7で「少なくとも」というのは、請求項3〜6に記載した優先順位を決める方法以外による優先順位を計算に入れることがあることを示す。
本発明では、入力したコンテンツから、見出し語に当たる文字列を検出して、コンテンツに存在する見出し語のうちいくつかの見出し語を置換対象とする見出し語として選択し、選択した見出し語を同じコンテンツ中の文字列を、当該選択した見出し語に対応する置換語に置換する。しかし、先述したように、コンテンツ中に検出した見出し語に当たる文字列を全て置換するわけではなく、次の2種類の制限を設けている。
(1)置換対象とする見出し語を、見出し語の個数として制限すること。つまり、コンテンツ中に検出されたいくつかの見出し語を置換対象とし、他の見出し語はコンテンツ中に存在しても置換対象としないという制限である。
(2)(1)で置換対象とした見出し語それぞれがコンテンツ中で検出される出現個数以下に実際の置換を制限すること。つまり、置換対象としたある見出し語をコンテンツ中に10個見つけても、10個全てを置換するとは限らないということである。
(1)の制限は、請求項1の「前記記憶した見出し語の中から、前記入力したコンテンツに含まれた、1つ以上予め指定した個数以下の見出し語を選択し、」という部分であり、(2)の制限は、請求項1の「前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、」という部分である。そして、請求項3から7は、(1)の制限に関連して置換対象とする見出し語の優先順位を決める方法である。
<置換対象文字列の選択方法>
(1)の制限として、置換対象とする見出し語を選択する方法としては、次のようにいくつかのアプローチがある。そして、(a)以外の方法では、優先順位により置換対象とする見出し語が決まる。
(a)入力したコンテンツについて、例えば形態素解析して単語に分解し、ランダムに適当な単語を選び、置換辞書に見出し語としてあるかどうか確認し、あれば置換対象とする見出し語として選択する方法。この選択を、予め指定した見出し語としての個数の範囲内で繰り返す。
(b)コンテンツの分析結果に従う。まず、コンテンツを形態素解析等で文字列に切り分け、分解された文字列毎にコンテンツ中の出現頻度をカウントし、出現頻度が高い文字列から置換辞書に見出し語としてあるかどうか確認し、あれば置換対象とする見出し語として選択する。この選択を、予め指定した見出し語としての個数の範囲内で繰り返す。(請求項3の例)
(c)置換辞書の各見出し語に重み値を与えておき、例えば、その重み値が大きい見出し語から、コンテンツ中にあるかどうか確認して、あれば置換対象とする見出し語として選択する。この選択を、予め指定した見出し語としての個数の範囲内で繰り返す。(請求項4の例)
(d)各置換語に習熟値を与えておき、例えば、習熟値が小さい置換語に対応した見出し語から、コンテンツ中にあるかどうか確認して、あれば置換対象とする見出し語として選択する。この選択を、予め指定した見出し語としての個数の範囲内で繰り返す。(請求項5の例)
(e)予めコンテンツに使用する各タグに強度値を割り当て、例えば、コンテンツを形態素解析等で文字列に切り分け、分解された文字列毎に置換辞書との見出し語としてあるかどうか確認し、あれば当該文字列に添えられたタグの強度値の合計値を求め、その合計値が大きいものから、置換対象とする見出し語として選択する。この選択を、予め指定した見出し語としての個数の範囲内で繰り返す。(請求項6の例)
(f)コンテンツの分析結果に従う。例えば、コンテンツを形態素解析等で文字列に切り分け、出現頻度の高い文字列から当該コンテンツが属する分野を推測し、その分野における専門用語等の置換辞書に切り替え、他のアプローチを利用する。
(g)コンテンツに含まれる外来語が、置換辞書に見出し語としてあるかどうか確認し、あれば置換対象とする見出し語として優先的に選択する。
(h)置換辞書の見出し語又は置換語に関連付けて、新語(外来語を含む)として用いられ始めた年月等を記憶し、コンテンツに含まれていれば、置換対象とする見出し語として優先的に選択する。
(i)後述する特別に作成したコンテンツの指示に従って、置換対象とする見出し語を選択する。(請求項13等のコンテンツ)
(j)上記のアプローチを2以上組み合わせ、各アプローチによる置換対象とする見出し語の優先順位((a)の方法ではランダムな選択結果を優先順位とみなす。)を求め、それらの優先順位を項とする関数により優先順位を決める。(請求項7の例)
<出現頻度>
前記(b)は、そのコンテンツの中で繰り返し出現する出現頻度の高い文字列は、恐らくそのコンテンツにおいてキーワードとなるものであると考えられることに基づくものである(ただし、出現頻度が高くても、例えば、英語における前置詞等は除く必要がある)。また、出現頻度が大きい方が、コンテンツ中に何回も出てきて、類推もしやすいと思われる。しかし、もちろん、そのコンテンツの中に1箇所しか出てこない文字列でも重要である場合がある。
なお、コンテンツ中の出現頻度が等しい見出し語相互の優先順位は、例えば、コンテンツ中に出現した順番やソート順としたり、ランダムに選択したりする。
<重み値>
置換辞書の見出し語に関連付けて記憶する重み値は、単語の重要度に応じてつける数値である。また、大小比較できる文字(アスキーコード等)でもよい。単語の重要度はおおむね多くのコンテンツにおけるその単語の出現頻度である。通常、出現頻度が高いほど、重要であろうと推定できる(ただし、接続詞等は除く)。当然であるが、その出現頻度を測定した調査対象分野が違えばサンプルとなる文も違うので、異なる重み値となる。出現頻度は統計的な処理の結果であるが、もちろん、専門家の考えで重みづけを変更してもよい。
重み値は、例えば、大きい整数値になるほど重みがあるとするのが便利である。つまり、大きい数値を重みが大とする場合、統計処理をするサンプル文書に、ある単語が出現すればその単語の出現頻度をプラス1すればよい。その出現頻度が、データ型が扱える数値の範囲をオーバーフローする場合は、適当な数値で割り算した答を重み値とする。
重み値を、例えば、A〜Jとして10段階評価したような場合は、段階が少ないので順番をつけたいときはランダムな計算や他の指標を加味した計算が必要になるし、評価の分布がアンバランスになると全体を再計算して重みを付け直さなければいけない。
なお、HTML等のコンテンツから見出し語を検索する場合はタグを無視するが、重み付けにおいてはタグが参考になることがある。例えば、H1タグやH2タグ、太字のタグを使用している文字列は、コンテンツの中で重要なキーワードであると推測される。また、文字列の切り分けについても、タグを挿入している箇所は文字列の切り分け位置に該当することが期待できる。ただし、1文字目だけフォントサイズを大きくするfontタグを挿入しているような場合もある。
なお、重み値の等しい見出し語があれば、例えば、見出し語として記憶している順番や、ランダムに選択して、優先順位を付ける。
<習熟値>
前記(d)は、利用者の置換語の習熟度合いから、置換対象とする見出し語を選ぶものである。
習熟の度合いは習熟値として、通常、置換語に関連付けて記憶する(習熟値を設けず、重み値から減算する場合もある)。習熟値も重み値と同様に、数値又は大小比較できる文字で記憶する。
習熟値はどのようにつけてもよいが、例えば、大きい整数値になるほど習熟度合いが高いとする。そして、例えば、その置換語の習熟値が低いほど、対応する見出し語が置換対象として優先的に選択され、かつ、その見出し語に複数の置換語が対応している場合は、優先してその置換語に置換される、ようにする。
習熟値の初期値の設定には、次に例示するような方法がある。
(1)利用者に学年や学歴を入力又は選択させ、それに対応して必修していると考えられる置換語は、学習済みの習熟値とする。あるいは、当該学年や学歴に応じ、習熟の度合いを調査した統計があれば、その平均値を習熟値とする。
(2)利用者に置換語となる単語の水準を選択させ、選択した水準以下の初歩的な置換語は、学習済みの習熟値とする。
(3)利用者に置換語の習熟度合いを測定するテスト問題を提示し、そのテスト結果から、習熟の水準を求め、その水準以下の初歩的な置換語は、学習済みの習熟値とする。
(4)利用者に見出し語又は置換語又は両者の一覧を提示し、既知であるかどうかを設定させる。
習熟値は通常、利用者の学習の進み具合に応じて、初期値から変化した値になる。学習の進み具合に応じて、習熟値を変える方法には、次に例示するようなものがある。もちろん、前記初期値の設定で初期値を再設定させてもよい。
(1)置換語に置換したときに習熟値をプラスする。つまり、置換した置換語は利用者の目に触れて学習したと考えられ、当該置換語の習熟度合いが向上しているはずであるからである。
(2)何回も置換した置換語については、習熟の度合いを測定するテスト問題を利用者に提示し、そのテスト結果により、習熟値を設定する。
(3)利用者に見出し語又は置換語又は両者の一覧を提示し、既知であるかどうかを設定させる。
習熟値は、通常、利用者毎に持つものであるが、例えば、教室の全員に同じ置換されたコンテンツを提供するような場合は、教室全員の習熟の度合いを反映したデータとしてもよい。重み値は通常、一般的な文章に出現する頻度に等しいように設定されることが多いと考えられる。したがって、専門分野やサンプルを変える場合は別として、一般的には学習期間が長くなっても、重み値は変わらない。他方、新しい単語を覚える学習を続ければ、学習期間が長くなるほど、習熟値が高くなった単語と低いままの単語があるはずである。そういう学年としての習熟値があってもいいし、ある年齢の人の平均習熟値もあってもいいから、重み値をあまり変動させない、又は個人毎の値とはしないとしたら、学年や年代や個人の習熟の度合いの違いは習熟値で調整する必要がある。
<文字列の切り分け>
前記(a)(b)や(f)等の場合のように、コンテンツから文字列を取り出す場合、英語のように単語が空白で区切られていれば取り出しやすい。日本語のように連続している場合は、形態素解析をする必要がある。ただし、漢字かな混じり文においては、連続した漢字やカタカナが単語であることが多いので、例えば、簡易な方法として、連続した漢字やカタカナの文字列を置換辞書で検索し、完全一致すればその文字列、部分一致すればその部分文字列、を置換対象となる見出し語としてもよい。つまり、ひらがなを含む文字列を置換対象とすることを諦めるなら、コンテンツに含まれる全ての文字列を完璧に分解する必要はない。
文字列を切り分ける場合、日本語では、句読点、読点、ピリオド、カンマ、行末、空白、タブ、タグ、カタカナとひらがなと漢字の境界、等は少なくとも切り分け位置となる可能性が高い。
後述する請求項13〜18に記載した各コンテンツは、文字列の切り分け位置や置換対象とする文字列を予め定めておき、置換にかかる処理を軽減するものである。
<音声の場合>
入力するコンテンツが、例えば、Webページやメール等である場合、ファイルとしてコンテンツ全体を受け取るので、当該コンテンツの全体から文字列の出現頻度を調べてから、置換対象とする見出し語を決めたりすることが可能である。ファイルとして入力する音声データも同様である。
しかし、リアルタイムに処理が必要な音声データ、つまり、入力と同時並行的に出力することが必要な音声データについては、入力の最後まで待ってコンテンツ全体から置換対象とする文字列を分析するということができない。したがって、一般的によく使用され、置換辞書において重み値が大きい見出し語で、利用者が習熟していないものを待ち構えて置換することになる。もし、音声で入力する話の分野が分かっていれば、予めその分野のための置換辞書を作成して利用すればよい。また、入力される音声データの先頭部分を一定量に達するまで観察して、使用される単語を分析し、その分析結果を元に以降の音声データを置換したり、さらに音声が入力されるに従い分析結果を更新しつつ、それ以降の置換に利用するようにしてもよい。つまり、時間経過とともにリアルタイムに分析結果も変わり、置換対象となる見出し語もその変化を受けるわけである。
<システム例>
図8は、コンテンツの置換処理のフロー図の例である。図8の処理例は、コンテンツを分析して、置換対象とする見出し語を選ぶ形態である。
置換に利用する利用者毎の置換辞書201は、予め用意した置換辞書221(標準222、分野別223、年代別224、等)として用意されているものとする。利用者は、用意された置換辞書221をダウンロード等で入手し、習熟値等の固有情報が入る自分用の置換辞書201とする。例えば、利用者は、習熟値入力画面から、既に知っている置換語の習熟値を最大値にして、置換対象から除外されるように設定したり、置換語又は見出し語を置換辞書から削除する。また、テスト問題形式の習熟値設定画面を利用者に提示して、その回答結果から、置換辞書の置換語の習熟値を変更したり、置換語又は見出し語を置換辞書から削除する。
置換処理は、まず、コンテンツ300を入力(受信を含む。)し(401)、文字列に分解する(502)。英語のように単語が空白で区切られているものは容易に分解できるが、日本語のように文字列がつながっている言語では、単語解析処理をしなければならない。除外単語ファイル511は英語の定冠詞のように分かりきった単語を除くためのものである。分解した文字列は後で置換辞書の見出し語にあるかどうか確認するが、そのとき、置換辞書にない文字列は置換対象から外れるので、除外単語ファイル511を用意して除外することは必須ではない。
分解した文字列はその出現頻度を伴うリスト503とする。続いて、その文字列のリストにある文字列それぞれについて、置換辞書の見出し語として存在するかどうか確認すると同時に存在すれば優先順位を計算する(504)。置換辞書の見出し語としてなければ、それに対応する置換語が求められないので、当然置換対象からはずれる。見出し語として存在すれば、置換対象とする場合の優先順位を計算する。優先順位としては、例えば、コンテンツ内における出現頻度が高いものを優先し、かつ、見出し語の重み値や、それに対応する置換語の習熟値を加味するとすれば、f(出現頻度、重み値、習熟値)という関数を計算する。重み値は大きい数値のほど重要な見出し語であり、習熟値は大きい数値のほどよく知ってる置換語である、とした場合、例えば、「出現頻度×重み値×(習熟値の最大値−習熟値)」のような式とする。
そして、置換辞書に見出し語として存在し、かつ、優先順位が計算された文字列(見出し語に同じ)を、その優先順位でソートしたリスト505を得る。
続いて、設定ファイル608に記憶された置換する見出し語の個数の最大値を参照しながら、優先順位の高い文字列(見出し語に同じ)から、コンテンツ中の当該文字列を、置換辞書で求めた置換語に置き換える。この置換を、置換対象とした見出し語としての個数が設定ファイルで定めた最大値の範囲内で繰り返す。
このとき、置換した置換語毎の置換回数をカウントしておき、置換辞書の置換語毎の習熟値に置換回数を加算等で反映する(602)。習熟値の項目がない場合は重み値から減算等で反映してもよい。
置換したコンテンツ800を出力(送信、表示、ファイル出力、印刷等を含む。)701する。
なお、置換辞書201の習熟値は習熟値入力画面209から設定入力できる。置換する見出し語の個数の最大値を記憶した設定ファイル608は設定値入力画面609から設定入力できる。
図9は、図8で入力したコンテンツ300から優先順位順の見出し語のリスト505を求める過程を示す図である。
ここでは、図8における文字列に分解する処理は、コンテンツの形態素解析ではなく、簡易な方法を取るものとする。ここで採用したのは、コンテンツ300に含まれる漢字からなる文字列のみを取り出す方法である。
まず、コンテンツ300から、句読点とひらがなを無視し(コンテンツ300には存在しないが、カタカナも無視するものとする。)、連続した漢字の文字列のみを取り出し、リスト(a)を得る。
リスト(a)で、各文字列の出現頻度を求め、リスト(b)を得る。
リスト(b)をソートし、リスト(c)を得る。
リスト(c)の各文字列を図1の置換辞書201の見出し語としてあるかどうか確認し、あるものだけのリスト(d)を得る。ここでは、例えば、「特許制度」という文字列の場合、置換辞書に確認すると存在しないので、最後の1文字を削除して「特許制」で置換辞書にあるかどうか確認する。それでも置換辞書には存在しないので、さらに最後の1文字を削除して「特許」で置換辞書にあるかどうか確認すると、存在するので、2文字削除した文字列「特許」として「特許制度」という文字列の頻度1を承継する。
リスト(d)を文字列毎に整理して、出現頻度順のリスト(e)を得る。
そして、リスト(e)の文字列それぞれについて、図8の処理では、「出現頻度×重み値×(習熟値の最大値−習熟値)」の計算を行ってソートし、優先順位順の見出し語のリスト505を得る。
ここでは、重み値も(習熟値の最大値−習熟値)も1として、出現頻度が大きい文字列をそのまま優先順位が高い見出し語とし、リスト(e)を優先順位順の見出し語のリスト505とする。
続いて、優先順位の高い見出し語である「発明」の置換語「invention」を求め、コンテンツ300に存在する「発明」を置換語「invention」に置換する。
さらに、次の優先順位の高い見出し語「特許出願」の置換語「patent application」を求め、コンテンツに存在する「特許出願」を置換語「patent application」に置換する。
もし、設定ファイル608の置換する見出し語の個数の最大値が2であれば、「発明」と「特許出願」の置換だけで置換処理を終了する。つまり、コンテンツの中で置換するのは、見出し語の数として2個である。
もし、設定ファイル608に実際に置換した文字列のバイト数や個数の制限が設定されている場合、例えば、コンテンツ300の中で「発明」という文字列を置換しているときにその設定数量以上になれば、その時点で置換処理を終了し、置換する見出し語の個数の最大値が2であっても、二つ目の見出し語の置換には至らない。
なお、リスト(e)において、「特許出願」と「特許」とは同じ出現頻度であり、普通にソートすると「特許」の方がリスト上、先に来る。しかし、「特許出願」と「特許」のように前方一致で含む文字列と含まれる文字列になった場合は、長い文字列を優先する。なぜなら、先にコンテンツの中の「特許」を置換してしまうと、コンテンツの中には「特許出願」という文字列はなくなってしまうからである。先に「特許出願」を置換した場合は、コンテンツの中の「特許」という文字列はなくならないので、置換候補のまま残る。
<請求項8及び9の発明:置換処理プログラムと記録媒体>
請求項8の発明は、「請求項1及び請求項3から8に記載したいずれかの処理を実行させるためのコンテンツの置換処理プログラム。」、である。プログラムは、コンテンツサーバ、仲介コンピュータ及び端末の少なくともいずれかで実行される。
コンテンツサーバがWebサーバであって、そこで置換する場合は、ASP、サーブレット、JSP、等で機能を実装できる。仲介コンピュータで置換する場合は、例えば、Proxyサーバ機能に置換プログラムを追加したり、専用ソフトで実装する。端末で置換する場合は、例えば、ブラウザソフトに、ActivX(登録商標)コントロール、Java(登録商標)アプレット、等のプログラムで、置換機能を追加して実装する。
請求項9の発明は、「請求項1及び請求項3から8に記載したいずれかの処理を実行させるためのコンテンツの置換処理プログラムを記録したコンピュータ読み取り可能な記録媒体。」、である。
この記録媒体からプログラムがコンピュータに読み込まれ、実行される。
<請求項10〜11の発明:置換辞書>
請求項10及び請求項11は置換辞書である。
請求項10の発明は、「第1の言語の文字列からなる見出し語と、前記見出し語の重み値と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶した置換辞書。」、である。
請求項11の発明は、「第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、前記置換語毎の習熟値と、を関連付けて1組以上記憶した置換辞書。」、である。
図10は、置換辞書をテーブルとした例を示す図である。図11は、置換辞書をCSV形式とした例を示す図である。これらの例では、見出し語を日本語、置換語を英語としている。また、見出し語毎の重み値と置換語毎の習熟値との両者を含めている。図10では、見出し語202と、その重み値203と、置換語(1)としての英語204と、その習熟値(1)205と、置換語(2)としての英語のカタカナ表記206と、その習熟値(2)207と、をテーブルにしている。図11は、図10のテーブルをCSV形式で表現している。
置換辞書は、第1の言語の文字列である見出し語(コンテンツにおいて置換される文字列)と、1以上の第2の言語の文字列である置換語(置き換わる文字列)と、を関連付けて記憶したものである。見出し語と置換語を対応させて記憶したテーブルを観念することができる。
項目としてはこれ以外に、置換辞書の項目として、単語の読み、発音記号、単語の意味、語源、変化、他の意味、例文、カタカナ表記、絵文字、優先度、表示回数、テスト結果、リンク、テスト問題、等、を含むことがある。
通常、置換辞書は、利用者毎に各自持つが、グループ毎とか全員共通とかで持つという形態もありえる。利用者が共用する置換辞書は、共通の置換辞書や配布用の置換辞書に時事用語など新しい言葉を自動的に追加する機能をもたせてもよいし、ダウンロードさせてもよい。利用者毎に保持する場合は、予め利用者に単語力のテストをさせて、辞書をスリムにしてもよい。
グループや全員で共通の置換辞書を持つ場合は、習熟値等、利用者毎に持つ方がよいデータを別ファイルにして、各自保有するのが好ましい。
置換辞書は、例えば、英語から日本語にする場合、英字「PATENT」に対して、読み「TOKKYO」、ひらかな「とっきょ」、カタカナ「トッキョ」、カタカナ「パテント」、漢字「特許」、となる。日本語から英語にする置換辞書では、漢字「特許」やひらがな「とっきょ」やカタカナ「トッキョ」に対して、カタカナ「パテント」、英字「PATENT」、となる。
置換辞書の第1の言語をひらがな、第2の言語を漢字とすることもある。言い換えの学習なら同一言語の違うものに置換してもよい。第2言語を第1言語で表記する場合がある。例えば、英語を日本語のカタカナで表記したり、日本語を英字(ローマ字)で表記する場合である。
置換辞書は、コンテンツで使用されている単語の水準で用意することがある。例えば、英単語の水準に応じた辞書として、2000語水準、5000語水準、等として用意する。
置換辞書は不変のものではない。全体の学習状況で辞書を変更したり、新しい単語を追加してもよい。提供用に用意した置換辞書を更新した場合は、ダウンロードした利用者にメールで更新の通知をしてもよい。
置換辞書は置換を実行するコンピュータにあるとは限らない。アクセス可能な、ネットワーク上のコンテンツサーバ、代理サーバ、端末、その他のサーバ、にあってもかまわない。例えば、コンテンツのヘッダーや本文に置換辞書へのリンクを挿入する。この場合、置換辞書をクライアントで持ち、サーバで置換するなら辞書引きのやり取りが必要になる。
置換辞書は一つのファイルとして独立しているとは限らない。例えば、見出し語と置換語の対応を一つのファイルに、見出し語に対する重み値を一つのファイルに、習熟値を一つのファイルに、と複数のファイル(テーブル)に分かれている場合がある。この場合、習熟値だけ個人毎で、他のファイルは利用者共通ということもある。
置換辞書のファイル形式は、CSV(Comma Separated Values)形式、SYLK(SYmbolic LinK format)形式、XML(eXtensible Markup Language)形式、固定長、可変長、索引順編成、リレーショナルデータベース、ネットワーク型データベース、ツリー型データベース、等、各種形態を取ることができる。
置換辞書はコンテンツやプログラムに含まれている場合がある。この場合、習熟値が個人毎になっていて、全員の習熟値を集約して、現存するコンテンツや新たに作成するコンテンツやそれに含まれる置換辞書に反映することもある。その他、添付の場合、ヘッダーに含む場合、コンテンツに関係したJava(登録商標)アプレットの場合、等がある。また、置換辞書は一つとは限らない。第2の言語が英字とカタカナで分けることもある。
置換辞書に従う場合、学習目標に従い置換辞書を切り替えたり、辞書を共通のものを使うか、個人毎のものにするか、他のコンテンツを含めた統計に従うか、が考えられる。
<請求項12の発明:置換辞書の設定変更>
請求項12の発明は、「置換語の習熟度合いを入力できる入力画面を出力し、前記入力画面に対する入力データを読み取り、前記読み取った入力データに基づき、置換辞書に習熟値が存在すれば前記習熟値を変更し、存在しなければ重み値を変更する、置換辞書の設定値変更方法。」、である。
習熟値の説明で前述したように、利用者が希望したときや予め定めたタイミングで、置換語の習熟値を変更することにつながる入力画面を出力して、入力されたデータを読み取り、そのデータに基づき、習熟値を変更するものである。ただし、置換辞書が習熟値を持っていない場合は、重み値に反映させる。
予め定めたタイミングで置換語の習熟の度合いを測定するため、チェックするコンテンツを出力する。具体的には、習熟値を設定する画面又は習熟度合いのテスト画面を表示する。前者は例えば、単語の一覧表形式で分かっている単語を選択させる。後者は例えば、置換した置換語についての質問を表示し、クイズ形式で答えさせる。ここで、予め定めたタイミングを例示すると、次のようなものがある。
(1)コンテンツ提供の都度
(2)利用者が要求したとき
(3)一定の期間を置いて
(4)一定量のコンテンツを出力したとき
これによる測定結果、つまり学習済みの指定結果やテスト結果は、置換辞書の重み値に反映する場合と、別の項目として保持したり、別ファイルで保持する場合がある。重み値に反映するとは、例えば、重み値から減算する。重み値から減算すれば、重み値が小さくなった見出し語は、順次選択する場合に後回しになる。ただし、習熟の度合いに応じて重み値を減算するということは、置換辞書の重み値が個人のものになるということであるから、置換辞書や重み値を共用できないということと、提供された重み値付きの置換辞書が更新された場合、今まで使用してきたものとは単純には置き換えられないことになる。
習熟値を別項目又は別ファイルにした場合は、置換語を順次選択する場合にそれを反映しようとしたら、重み値と習熟値をその都度差し引き計算が必要である。計算処理が増えるが、置換辞書は誰かから提供されるものを利用することが多いであろうから、置換辞書を更新する場合、置換辞書の重み値に反映した情報はクリアされてしまう。習熟値を別項目にしておく方がまだよいし、別ファイルにしておくのが一番更新しやすい。
サーバに習熟度のファイルを有する場合、テスト問題を生成して端末に送り、それに対する回答を採点してサーバに記録したり、習熟度の状況を予め登録したメールアドレスにメールで通知する。
習熟値の設定は、単語の意味を検索した場合、その表示画面でも設定できるようにしてもよい。例えば、自分にとって重要なので、なるべく頻繁に置換語として置換したコンテンツに出現して欲しい場合は、習熟値をなるべく小さくしておく。習熟値にマイナス数値を設定できる場合は、大きいマイナス数値で設定するようにしてもよい。
習熟値に関連して、今まで学習した単語の問題をメール等で送信してもよい。統計や採点結果を元にレベルを見て、問題を送信してもよい。学習目標を定める。利用者毎の学習状況を表示したり、統計を提示したり、全体平均や他人との比較、トップ10の表示、等をしてもよい。
<請求項13〜18の発明:特別なコンテンツ>
コンテンツのデータフォーマットには、TXT、HTML、XML、PDF、音声、画像、独自フォーマット、等、がある。
昨今のコンテンツは、文書の一部を「タグ」と呼ばれる特別な文字列で囲うことにより、文章の構造(見出しやハイパーリンクなど)や、修飾情報(文字の大きさや組版の状態など)を、文章中にする記述言語であるマークアップ言語で記述したものが主流になってきている。マークアップ言語で書かれたコンテンツはブラウザと呼ばれる閲覧ソフトで閲覧することが多いが、テキストファイルであるため、テキストエディタを使って読んだり編集したりすることができる。代表的なマークアップ言語としては、SGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、TeX等がある。XML(eXtensible Markup Language)はメタ言語であり、タグの意味を規定するスキーマ言語と組み合わせてマークアップ言語になる。
また、昨今のコンテンツは、ヘッダーとボディからなる形式を取っていることが多い。HTMLにおいても、NetNewsの投稿や電子メールメッセージにおいても同様である。電子メールメッセージでは添付ファイルはボディ部にテキスト化されて付け加えられる。
コンテンツサーバがクライアントに送信するコンテンツは、本発明による置換が容易になるように予め対応させたものと、特に対応していない従来のものがある。
請求項13〜18はコンテンツであって、主に置換処理を軽減するコンテンツである。置換処理を軽減する方法としては、例えば、(1)コンテンツを文字列に分解するのを容易にする、(2)予めどの文字列を置換対象とするかを決めておく、(3)さらにどういう文字列に置換するかを決めておく、というようなものがある。
置換には、通常のコンテンツを一般的な置換辞書を用いて置換する方法と、特定のコンテンツのために専用の置換辞書を予め用意して置換する方法がある。前者は、置換辞書とコンテンツの両方にある見出し語を探すが、必ずしも、ぴったりした表現の置換語になるとは言えない。後者の場合、特定のコンテンツを意識して、予め専用の置換辞書を作成し、コンテンツに関連づけておく。例えば、コンテンツの中に見出し語と置換語の対応をテーブルで持たせたり、そのテーブルを別ファイルで持たせてリンクさせる。予め用意するから置換語は適切なものになる。置換辞書は、コンテンツ又は一連のコンテンツ毎に作るので面倒であるが、シンプルなものになる。つまり、見出し語が多義であって、対応する置換語がいくつもあるような場合でも、適切な置換語を選んでおける。
この特別なコンテンツは、置換対象の見出し語にあたる文字列を予めコンテンツから選択し、それに対応する置換語を決め、両者を関連付けてコンテンツに添付しておく。請求項14等に記載したコンテンツは、それ自身の置換辞書を持って適切な文字列に置換できるようにしたものである。
<リスト付きコンテンツ>
請求項13の発明は、「本文が第1の言語によるコンテンツであって、前記コンテンツの本文に含まれる文字列から学習対象とする文字列を1以上抽出した文字列のリストを前記コンテンツに添付したコンテンツ。」、である。
図12は、請求項13の発明によるコンテンツの例である。第1の言語(本例では日本語)による本文349に、学習対象とする文字列のリスト341を添付している。置換対象とする文字列は、このリスト341の中から選択する。つまり、置換候補となる文字列を予めリストアップしたコンテンツである。したがって、置換の処理が簡素化される。
本発明において添付とは、コンテンツのヘッダーへの記載、メールのような添付ファイル及びリンクを含む。つまり、添付データがコンテンツと一体になってる場合と、コンテンツから添付データにリンクがある場合と、がある。後者の場合、添付データはコンテンツと同じコンピュータ又はアクセス可能な別コンピュータにある。
本発明において、リストとは、文字列が一覧になっているものを言う。置換辞書とは、第1の言語の文字列と、それに対応する1以上の第2の言語の文字列と、を関連付けて記憶したものを言う。
<置換辞書付きコンテンツ>
請求項14の発明は、「本文が第1の言語によるコンテンツであって、前記コンテンツの本文に含まれる文字列から学習対象とする文字列を1以上抽出したそれぞれの文字列に少なくとも第2の言語による1以上の文字列を関連付けたリストを前記コンテンツに添付したコンテンツ。」、である。
図13は、請求項14の発明によるコンテンツの例である。第1の言語(本例では日本語)による本文359に、学習対象とする第1の言語の文字列353と、それと同じ意味の第2の言語の文字列354,355とを、関連付けて記憶した置換辞書351として添付している。置換対象とする文字列と置換後の文字列は、この置換辞書の中から選択する。つまり、置換候補となる文字列と、それに対応する置換語を予めリストアップしたコンテンツである。したがって、置換の処理が簡素化される。
「少なくとも」とは、この置換辞書に、重み値、習熟値、その他のデータを付け加えてもよいということである。
<文字列代替番号コンテンツ>
請求項15の発明は、「本文が第1の言語によるコンテンツであって、少なくとも、第1の言語の文字列と、前記文字列を代替する代替番号とを、1組以上関連付けて前記コンテンツに添付し、前記コンテンツの本文に含まれる前記代替番号のある文字列を前記代替番号に置き換えたコンテンツ。」、である。
図14は、請求項15の発明によるコンテンツの例である。「少なくとも」というのは、第1の言語の文字列と代替番号だけではなく、図14のように置換語等も関連付けてもよいということである。
コンテンツの文字列を切り分け、それぞれの文字列に文字列を代替する代替番号362を振ったテーブル361をコンテンツに添付し、コンテンツに含まれる文字列のうち、前記代替番号のある文字列はその代替番号に置き換えたものである。図14の例では、通常の文字列から代替番号を区別するため、代替番号であることを示す文字「%」を、代替番号の頭に付けている。代替番号の長さが決まっていない場合は代替番号であることを示す文字で代替番号を囲んでもよい。代替番号であることを示す文字は、「%」以外の文字としてもよい。図14の例では、代替番号は数字であるが、数字に限るわけではない。例えば、数字0〜9と英字A〜Fで16進数表示としてもよい。
なお、代替元の文字列が同じであっても、その変形や意味の違い等により、複数の代替番号を持ってもよい。
<XMLコンテンツ>
請求項16の発明は、「本文が第1の言語によるXML形式のコンテンツであって、第1の言語の文字列を要素の内容とし、前記文字列に意味が同じ第2の言語による文字列を前記要素の属性値として1以上記述した要素、を含むコンテンツ。」、である。
図15は、請求項16の発明によるコンテンツの例である。第1の言語(本例では日本語)による本文370に、学習対象とする第1の言語の文字列374を開始タグと終了タグで囲んだ要素を記述し、第2の言語の文字列をその属性値とし記述している。タグで置換対象とする文字列を予め決め、置換語は属性値から求められるようにしておく。したがって、置換の処理が簡素化される。
例えば、単語を要素の内容とし、その要素の属性値に、外国語の単語、外国語の単語の読み方をカタカナ表現したもの、発音記号、ルビ、音声データ、等を埋め込む。なお、属性値は、XSLT等で取り出したり、入れ替えたりすることができる。
請求項17の発明は、「本文が第1の言語によるXML形式のコンテンツであって、第1の言語の文字列を要素の属性値とし、前記文字列に意味が同じ第2の言語による文字列を前記要素の内容として1以上記述した要素、を含むコンテンツ。」、である。
図16は、請求項17の発明によるコンテンツの例である。例えば、このコンテンツを、第1の言語(本例では日本語)によるコンテンツが置換語に置換されたものと見ることができる。つまり、置換語379を要素の内容として、その属性値として、元の文字列等を埋め込んだものである。そして、置換後の本文375に含まれる置換語379を開始タグと終了タグで囲んだ要素の内容とし、置換された第1の言語の文字列をその属性値として記述したものと考えることができる。このように置換しておけば、要素の内容と属性値を交換することにより、置換後のコンテンツから置換前のコンテンツを復元することができる。
なお、属性値は、XSLT等で取り出したり、入れ替えたりすることができる。
<区切り文字入りコンテンツ>
請求項18の発明は、「本文が第1の言語によるコンテンツであって、前記コンテンツの本文において、文字列として切り分けるそれぞれ位置に、文字列切り分け文字として予め定めた文字を1以上挿入したコンテンツ。」、である。
図17〜19は、請求項18の発明によるコンテンツの例である。図17では、区切り文字をスラッシュ「/」にしている。図18では、図示していないが、区切り文字を行末文字にしている。図19は、図18のコンテンツをひらがなにしたものであり、同様に区切り文字は行末文字である。
請求項18の発明は、第1の言語によるコンテンツを文字列に切り分け、文字列として切り分けた位置に、それぞれ文字列切り分け文字381を1以上入れたコンテンツである。切り分け文字としては、例えば、スラッシュ「/」、タブ(TAB)、行末文字(CR+LF等)、等を切り分け文字として決める。例えば、「特許出願する」を「特許/出願/する」とか「特許 出願 する」とか「特許(CR+LF)出願(CR+LF)する」に切り分ける。図18及び図19では、切り分け文字として各行の最後に行末文字が入っている。切り分け文字として使用した文字を普通の文字として使う場合はエスケープ文字(例えば\)とした文字を前に付け(例えば\/)、エスケープ文字を普通の文字として使う場合はエスケープ文字を重ねる(例えば\\)。
切り分けは置換辞書に掲載した文字列に従って行うのが好ましい。人間が切り分け作業をする場合、切り分ける箇所に人間にとって分かりやすい文字を挿入し、後で本来の切り分け文字とした文字に置き換えればよい。
HTMLの場合、PRE要素でなければ、ブラウザでは、通常、行末文字は無視されて表示される。行末文字はOSによって異なる。
ひらがなばかりのコンテンツは、読みにくいし、切り分けにくいので、例えば、図19のように行末文字で区切る。一組のCR+LFは日本語ブラウザの表示で無視される。
図17の例では、区切り文字はスラッシュ「/」のみであるが、一つのコンテンツや一連のコンテンツの中で、区切り文字は1種類とは限らない。いくつかの種類の文字を区切り文字に採用し、それぞれ別の目的を持たせるなどして混在利用してもよい。また、例えば、コンテンツのヘッダー等で、そのコンテンツで使用する区切り文字を定義してもよい。
図18や図19のように行末文字を区切り文字とした場合、UNIX(登録商標)系では行末文字は1バイトのLFであるが、DOS又はWindows(登録商標)系では行末文字は2バイトのCR+LFであり、Macintosh(登録商標)では1バイトのCRである。つまり、区切り文字はOSによって異なるし、1バイトとは限らない。
音声によるコンテンツの場合、音声データの区切文字として音声を利用する場合は、例えば、人の話し声や聞こえる周波数から離れた周波数の単調な正弦波の音を挿入したり、一定時間の無音、等とする。しかし、音声データはデジタル化されるから、そのデジタル化されたデータ列の中で、採用する記録方式において、音声データとして無視するように定めたビットパターンを設ければ、そのビットパターンを区切り文字として利用することができる。
<請求項19〜20の発明:特別なコンテンツ2>
請求項19の発明は、「第1の言語の文字列と第2の言語の文字列とが混在したコンテンツであって、文末に近いほど、第1の言語の文字列に対する第2の言語の文字列が占める比率が相対的に高くなるようにしたコンテンツ。」である。
第1と第2の言語が混在したコンテンツであって、前方から後方に行くにつれて、第2の言語による文字列の含有率が上がるものである。第1の言語を母国語、第2の言語を外国語とすると、最初の読み始めは母国語の比率が高く、最後に近くなるほど外国語の比率が高くなるコンテンツである。最後に近づくほど、第2の言語の文字列が占める割合が増加するものである。第1の言語の文字列と第2の言語の文字列が逆転する場合もある。
請求項20の発明は、「第1の言語の文字列と第2の言語の文字列とが混在したコンテンツであって、文末に向かう任意の位置で、第2の言語の文字列に置換した第1の言語の文字列は、その位置以降に出現する場合においても、同様に置換したコンテンツ。」、である。
第1と第2の言語が混在したコンテンツであって、前方から後方にかけて、学習目標とする第2の言語の文字列が増加するように、テキストに現れる第1の言語の文字列を第2の言語の文字列に置換した以降の同じ第1の言語の文字列を同様に置き換えるものである。つまり、前方から後方に読み進むにつれて、一度第2の言語に置換した第1の言語の文字列は、以降に出現する場合も第2の言語の文字列に置換され、文末に近いほど第2の言語による表現が増えてくるものである。これにより、例えば、母国語によるコンテンツが、読み進むにつれて外国語が増えていくコンテンツとなり、外国語学習用教材として利用できる。
請求項19及び20のコンテンツは、本や雑誌等の印刷物、その他、紙媒体に記録する場合がある。例えば、書物等の印刷物は内容が固定で、辞書等を除き通常は前方から後方へ読むものであるが、前方から後方へ向かう途中で母国語の単語を外国語に置き換え、外国語に置き換えた文字列は以降においても外国語として記載し、コンテンツ中に占める外国語の割合がだんだん増加するようにする。1冊の本や何冊の本からなる全集等の中で、徐々に学習する外国語の含有率を増やしたものである。
<請求項21の発明:記録媒体>
請求項21の発明は、「請求項13から20に記載したコンテンツのいずれかを記憶したコンピュータ読み取り可能な記録媒体。」、である。
コンテンツは複数のファイルからなる場合もある。
<請求項22の発明:コンテンツサーバ>
請求項22の発明は、「コンテンツを提供するコンテンツサーバであって、クライアントからコンテンツの送信要求を受信する受信手段と、前記クライアントの機能を識別する識別手段と、前記クライアントからの送信要求に基づき、前記識別手段で識別した結果により前記クライアントに適合したコンテンツを前記クライアントに送信する送信手段と、を有するコンテンツサーバ。」、である。
クライアントはコンテンツサーバにコンテンツを要求して受信するコンピュータである。この場合のクライアントとは、利用者の端末又は仲介コンピュータである。本発明のコンテンツサーバは、クライアントの機能を識別して、送信するコンテンツの形式を切り替える。送信する適合したコンテンツとしては、予め用意した通常のコンテンツや請求項13〜20にそれぞれ記載した特別なコンテンツに切り替えるか、予め用意したコンテンツを変換するか、ダイナミックに生成したコンテンツを置換するか、による。置換プログラムは、Webサーバの場合、CGI、JSP、サーブレット、ASP、PHP、等が利用できる。
クライアントの機能を識別する方法は、クライアントからの要求メッセージ(パラメータ)から識別する方法と、クライアントからの認証情報により識別する方法が考えられる。例えば、Webシステムの場合、端末からWebサーバにリクエストが送信されるが、端末のもつ機能等に関する情報をHTTPヘッダの一部として含むことができる。コンテンツサーバはこの端末からの属性情報に基づいて、端末に適合したコンテンツを送信する。
端末の認証を行う場合は、端末のユーザID毎に端末属性を予め記憶しておいてもよい。また、Cookie を利用することもできる。
<請求項23の発明:フォント対応サーバ>
請求項23の発明は、「コンテンツを提供するコンテンツサーバであって、クライアントからコンテンツの送信要求を受信する受信手段と、前記クライアントの機能を識別する識別手段と、前記クライアントからの送信要求に基づき、前記識別手段で識別した結果により文字コードを予め用意された文字コードに対応する文字パターンの画像ファイルへのリンクに置き換える文字画像置換手段と、前記置換したコンテンツを前記クライアントに送信する送信手段と、を有するコンテンツサーバ。」、である。
コンテンツを表示する端末に対象とする言語のフォントがインストールされていない場合は、サーバでコンテンツの一部又は全部を画像として提供してもよい(例えば、PDFファイルで出力する場合はフォントを添付できるが)。例えば、HTTPのリクエストのヘッダーから端末の使用言語を識別し、置換語のフォントファイルを持たない端末であると判断した場合、置換語の画像を生成したり、置換語が形成されている文字の画像へのリンクに置き換える。同じ文字コードでも、フォントの種類、フォントサイズ、太字、斜体、アンダーライン、文字色、背景色、等の違いがある。
<請求項24〜25の発明:端末プログラム>
請求項24の発明は、「コンテンツを入力する入力手段と、前記入力したコンテンツを表示する表示手段と、前記入力したコンテンツから文字列を選択する文字列選択手段と、前記選択した文字列を置換する置換文字列を入力する置換文字列入力手段と、前記入力したコンテンツに含まれている前記選択した文字列と同じ文字列を、前記入力した置換文字列に置換する置換手段と、を有するコンテンツの置換システム。」、である。
例えば、入力したコンテンツを画面に表示し、マウス等で文字列を選択し、その文字列を置き換える文字列をキーボードから入力したり、辞書引きをして入力すると、入力したコンテンツに含まれる選択した文字列と同じ文字列が全て置き換える。置換した内容は全て記録し、遡って取り消しの操作ができるようにすることが好ましい。
請求項25の発明は、「コンテンツを入力する入力手段と、前記入力したコンテンツを表示する表示手段と、前記入力したコンテンツから文字列を選択する文字列選択手段と、前記選択した文字列を置換する置換文字列を入力する置換文字列入力手段と、前記選択した文字列がある位置以降において、前記入力したコンテンツに含まれている前記選択した文字列と同じ文字列を、前記入力した置換文字列に置換する置換手段と、を有するコンテンツの置換システム。」、である。
例えば、入力したコンテンツを画面に表示し、マウス等で文字列を選択し、その文字列を置き換える文字列をキーボードから入力したり、辞書引きをして入力すると、文字列を選択した位置以降の、入力したコンテンツに含まれる選択した文字列と同じ文字列が置き換える。このシステムは、請求項19及び20の発明による特別なコンテンツの作成作業に利用することができる。置換した内容は全て記録し、遡って取り消しの操作ができるようにすることが好ましい。
<設定ファイル>
置換対象とする見出し語数や置換する文字列の容量の制限等はその都度入力するのは面倒であるから、設定した値を記憶する設定ファイルを設けて保存する。これらを含め、設定可能で設定した内容を設定ファイルに記憶することが好ましい設定項目としては、例えば、次のようなものがある。
(1)学習済みのレベルを設定。例えば、ある学年までに習う単語は予め除外する等、出発点の設定。
(2)学習速度の設定。
(3)学習辞書の重要度を自分で設定。
(4)置換単語個数指定。置換範囲指定。解除条件指定。
(5)単語集選択。
(6)語順を変える。変えない。
<端末機能>
端末のプログラムとしては、ブラウザ、メーラー、ブラウザやメーラへのプラグイン(アドイン)、専用のブラウザ、独自ソフト、Java(登録商標)アプレット、Java(登録商標)Script、等がある。プログラムには置換辞書や設定項目を含む場合がある。
端末で実現する機能としては、一般的なものと特有のものがある。前者は例えば、表示、コピー、編集、保存、印刷、ドラッグ&ドロップ、等である。後者は例えば、置換語の音声出力、置換後と置換前の表示の切替、置換の解除、置換語の意味、語源、語根に分解、関連語、反対語、類似語、別表現、似た単語との相違点、等の表示、既知であることを入力、テスト問題の生成、新たに置換をやり直す、等である。転送、共有する。
置換文字列にマウスカーソルをあわせたり、クリックして選択したり、範囲を選択して反転表示させたり、すると次のようなことを動作を実行してもよい。また、これらのアクションはカウントし学習効果の判定などに使ってもよい。
(1)置換文字列の意味を第1の言語又は設定した言語で表示する。ローカルにはJava(登録商標)Scriptでもよい。
(2)選択して意味を見る、選択して辞書を引く、選択して入力して習熟値を設定する、等もできる。
(3)置換文字列がURLを持っていて、Webページを取ってくる。
(4)右クリックでメニューを出す。メニューから読み上げを選択すると、読み上げる。読み方(発音記号)を表示させてもよい。訳を選ぶと訳する。言語を対比して表示できる。単語辞書の内容や他の使い方も表示する。関係する絵などイメージを表示する。メニューから学習済みを選択。その文字列だけではなく全体の同じ文字列の置換が解除される。
(5)マウスカーソルをコンテンツに近づけると置換が元に戻り、離すと置換される。覚えたとか、忘れたとか選択すると、その部分を置換したり、元に戻す。読み上げる。音声入力してOKかチェックできる。
(6)外国語の文字列をカタカナ表現して表示する。
テキスト内容を変化させられるから、利用者毎に見るページの順に置き換える。前のページに戻ったりする場合。学習済みになった単語は、前後のテキスト内の単語を全部置き換える。戻すこともできる。
ツールバーを設け、置換文字や設定状況を分かりやすい位置に表示してもよい。置換語をクリックすると意味が出たり、より詳細に検索できる。置換語にカーソルが飛ぶ(検索)。次の置換候補文字も出てる。クリックすると置換する文字が変わる。同じコンテンツで過去の置換結果を遡って見える。
置換した単語については、フォントを大きくしたり、色をつけたり、斜体にしたり、ブリンクさせてもよい。学習済みの単語全部に色つけたり、フォントを小さくしたりしてもよい。
全体の中でどれだけ置き換えたか件数や割合の表示、同じ文字列でどれだけ置き換えたか件数の表示、同じ文字列中置き換えた割合の表示、等をすることも面白い。
コンテンツ中の文字列をクリックすると、単語の範囲やフレーズの範囲まで選択される場合、適当な前後の範囲まで選択される場合、辞書にある範囲まで選択される場合がある。その文字列だけ選択する場合と、テキスト全体又は一部について、その文字列と同じ文字列全てが検索されて選択する場合と、がある。
<検索エンジン>
インターネット上の検索エンジンについては、検索結果として送信するコンテンツに含まれるリンク先のURLに仲介コンピュータのURLを挿入する手段を有する検索エンジンや、検索結果として送信するコンテンツに含まれるリンク先のURLを請求項22に記載したコンテンツサーバのURLとする手段を有する検索エンジン、が考えられる。
<その他>
楽しく学習するため、ゲーム的な要素を取り入れてもよい。しかし、あまりそれが強いと、自然体で学習するということに反するかも知れない。また、学習したご褒美として習熟の程度や進み具合を表示したり、サーバで習熟の具合を管理している場合は、他の人と比較したり、サービスのポイントがたまるなどの工夫をしてもよい。
置換辞書は予め用意して提供するだけではなく、利用者が新しい単語を登録したり、他の言語の単語を登録したりして、協調して成長させられるようなものにしてもよい。画像としての文字は利用者が作成した絵文字を利用してもよい。
本発明のコンテンツの置換方法の説明図。 第1の言語によるコンテンツの例を示す図。 英語表記に置換したコンテンツの例を示す図。 カタカナ表記に置換したコンテンツの例を示す図。 混在した表記に置換したコンテンツの例を示す図。 コンテンツの置換システムの構成図。 コンテンツの置換システムの形態を示す図。 コンテンツの置換システムの構築例を示す図。 優先順位順の見出し語のリストを求める過程を示す図。 置換辞書(テーブル形式)の例を示す図。 置換辞書(CSV形式)の例を示す図。 リスト付きコンテンツの例を示す図。 置換辞書付きコンテンツの例を示す図。 文字列代替番号コンテンツの例を示す図。 XMLコンテンツの例1を示す図。 XMLコンテンツの例2を示す図。 区切り文字入りコンテンツの例1を示す図。 区切り文字入りコンテンツの例2を示す図。 区切り文字入りコンテンツの例3を示す図。
符号の説明
100 コンピュータ
110 コンテンツサーバ
120 仲介コンピュータ
130 端末
200 記憶手段
201 置換辞書
202,212 見出し語
203,213 重み値
204,206,214,216 置換語
205,207,215,217 習熟値
209 習熟値入力画面
211 置換辞書(CSV形式)
221 用意した置換辞書
222 標準の置換辞書
223 分野別の置換辞書
224 年代別の置換辞書
300 コンテンツ
301 置換される文字列
340 リスト付きコンテンツ
341 リスト付きコンテンツの置換リスト
343 リスト付きコンテンツの見出し語
349 リスト付きコンテンツの本文
350 置換辞書付きコンテンツ
351 置換辞書付きコンテンツの置換辞書
353 置換辞書付きコンテンツの見出し語
354 置換辞書付きコンテンツの置換語(1)
355 置換辞書付きコンテンツの置換語(2)
359 置換辞書付きコンテンツの本文
360 文字列代替番号コンテンツ
361 文字列代替番号コンテンツの置換辞書
362 文字列代替番号コンテンツの代替番号
363 文字列代替番号コンテンツの見出し語
364 文字列代替番号コンテンツの置換語(1)
365 文字列代替番号コンテンツの置換語(2)
369 文字列代替番号コンテンツの本文
370 XML形式コンテンツ1
374 XML形式コンテンツ1の要素の内容
375 XML形式コンテンツ2
379 XML形式コンテンツ2の要素の内容
380 区切り文字入りコンテンツ1
381 区切り文字入りコンテンツ1の区切り文字
390 区切り文字入りコンテンツ2
395 区切り文字入りコンテンツ3
400 入力手段
401 入力
500 選択手段
501 選択
502 文字列に分解
503 出現頻度付きの文字列のリスト
504 見出し語確認と優先順位計算
505 優先順位順の見出し語のリスト
511 除外単語ファイル
600 置換手段
601 置換
602 置換回数を置換辞書の習熟値に反映
608 設定ファイル
609 設定値入力画面
700 出力手段
701 出力
800 置換したコンテンツ
810 英語表記に置換したコンテンツ
811 英語表記に置換した文字列
820 カタカナ表記に置換したコンテンツ
821 カタカナ表記に置換した文字列
830 混在した表記に置換したコンテンツ
831 括弧書きで元の文字列を含む英語表記に置換した文字列
832 英語表記をルビにして置換した文字列
833 カタカナ表記をルビにして置換した文字列
834 斜体文字の英語表記に置換した文字列
900 通信網

Claims (25)

  1. 置換辞書として、第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶し、第1の言語によるコンテンツを入力し、前記記憶した見出し語の中から、前記入力したコンテンツに含まれた、1つ以上予め指定した個数以下の見出し語を選択し、前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、前記コンテンツ中に出現した見出し語を、前記選択した見出し語毎に関連付けて記憶したいずれかの置換語に置換し、前記置換したコンテンツを出力する、ことを含むコンテンツの置換方法。
  2. 置換辞書として、第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶する記憶手段と、第1の言語によるコンテンツを入力する入力手段と、前記記憶した見出し語の中から、前記入力したコンテンツに含まれた、1つ以上予め指定した個数以下の見出し語を選択する選択手段と、前記選択した見出し語それぞれが前記コンテンツ中に出現する個数の範囲内で、前記コンテンツ中に出現した見出し語を、前記選択した見出し語毎に関連付けて記憶したいずれかの置換語に置換する置換手段と、前記置換したコンテンツを出力する出力手段と、を有するコンテンツの置換システム。
  3. 置換辞書の見出し語が第1の言語によるコンテンツに出現する出現頻度に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。
  4. 置換辞書の見出し語それぞれに重み値を関連づけて記憶し、前記見出し語それぞれの重み値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。
  5. 置換辞書の置換語それぞれに習熟値を関連づけて記憶し、前記置換語それぞれの習熟値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。
  6. 予めコンテンツに使用するタグそれぞれに強度値を割り当て、入力したコンテンツに出現する置換辞書の見出し語それぞれに添えられたタグの強度値の合計値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。
  7. 少なくとも請求項3から6に記載のいずれかの優先順位を決める方法から、2以上n個の任意の方法を組み合わせた方法のいずれかを利用したコンテンツの置換方法であって、置換辞書の見出し語に前記組み合わせたn個の方法を適用してn個の優先順位x1,x2,…,xnを求め、前記求めた優先順位を項とする関数f(x1,x2,…,xn)の値に基づき、選択する見出し語の優先順位を決める、請求項1記載のコンテンツの置換方法。
  8. 請求項1及び請求項3から8に記載したいずれかの方法を実行させるためのコンテンツの置換処理プログラム。
  9. 請求項1及び請求項3から8に記載したいずれかの方法を実行させるためのコンテンツの置換処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
  10. 第1の言語の文字列からなる見出し語と、前記見出し語の重み値と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、を関連付けて1組以上記憶した置換辞書。
  11. 第1の言語の文字列からなる見出し語と、前記見出し語と意味が同じ第2の言語の文字列からなる1以上の置換語と、前記置換語毎の習熟値と、を関連付けて1組以上記憶した置換辞書。
  12. 置換語の習熟度合いを入力できる入力画面を出力し、前記入力画面に対する入力データを読み取り、前記読み取った入力データに基づき、置換辞書に習熟値が存在すれば前記習熟値を変更し、存在しなければ重み値を変更する、置換辞書の設定値変更方法。
  13. 本文が第1の言語によるコンテンツであって、前記コンテンツの本文に含まれる文字列から学習対象とする文字列を1以上抽出した文字列のリストを前記コンテンツに添付したコンテンツ。
  14. 本文が第1の言語によるコンテンツであって、前記コンテンツの本文に含まれる文字列から学習対象とする文字列を1以上抽出したそれぞれの文字列に第2の言語による1以上の文字列を関連付けたリストを前記コンテンツに添付したコンテンツ。
  15. 本文が第1の言語によるコンテンツであって、少なくとも、第1の言語の文字列と、前記文字列を代替する代替番号とを、1組以上関連付けて前記コンテンツに添付し、前記コンテンツの本文に含まれる前記代替番号のある文字列を前記代替番号に置き換えたコンテンツ。
  16. 本文が第1の言語によるXML形式のコンテンツであって、第1の言語の文字列を要素の内容とし、前記文字列に意味が同じ第2の言語による文字列を前記要素の属性値として1以上記述した要素、を含むコンテンツ。
  17. 本文が第1の言語によるXML形式のコンテンツであって、第1の言語の文字列を要素の属性値とし、前記文字列に意味が同じ第2の言語による文字列を前記要素の内容として1以上記述した要素、を含むコンテンツ。
  18. 本文が第1の言語によるコンテンツであって、前記コンテンツの本文において、文字列として切り分けるそれぞれの位置に、文字列切り分け文字として予め定めた文字を1以上挿入したコンテンツ。
  19. 第1の言語の文字列と第2の言語の文字列とが混在したコンテンツであって、文末に近いほど、第1の言語の文字列に対する第2の言語の文字列が占める比率が相対的に高くなるようにしたコンテンツ。
  20. 第1の言語の文字列と第2の言語の文字列とが混在したコンテンツであって、文末に向かう任意の位置で、第2の言語の文字列に置換した第1の言語の文字列は、その位置以降に出現する場合においても、同様に置換したコンテンツ。
  21. 請求項13から20に記載したコンテンツのいずれかを記憶したコンピュータ読み取り可能な記録媒体。
  22. コンテンツを提供するコンテンツサーバであって、クライアントからコンテンツの送信要求を受信する受信手段と、前記クライアントの機能を識別する識別手段と、前記クライアントからの送信要求に基づき、前記識別手段で識別した結果により前記クライアントに適合したコンテンツを前記クライアントに送信する送信手段と、を有するコンテンツサーバ。
  23. コンテンツを提供するコンテンツサーバであって、クライアントからコンテンツの送信要求を受信する受信手段と、前記クライアントの機能を識別する識別手段と、前記クライアントからの送信要求に基づき、前記識別手段で識別した結果により文字コードを予め用意された文字コードに対応する文字パターンの画像ファイルへのリンクに置き換える文字画像置換手段と、前記置換したコンテンツを前記クライアントに送信する送信手段と、を有するコンテンツサーバ。
  24. コンテンツを入力する入力手段と、前記入力したコンテンツを表示する表示手段と、前記入力したコンテンツから文字列を選択する文字列選択手段と、前記選択した文字列を置換する置換文字列を入力する置換文字列入力手段と、前記入力したコンテンツに含まれている前記選択した文字列と同じ文字列を、前記入力した置換文字列に置換する置換手段と、を有するコンテンツの置換システム。
  25. コンテンツを入力する入力手段と、前記入力したコンテンツを表示する表示手段と、前記入力したコンテンツから文字列を選択する文字列選択手段と、前記選択した文字列を置換する置換文字列を入力する置換文字列入力手段と、前記選択した文字列がある位置以降において、前記入力したコンテンツに含まれている前記選択した文字列と同じ文字列を、前記入力した置換文字列に置換する置換手段と、を有するコンテンツの置換システム。
JP2003281892A 2003-07-29 2003-07-29 コンテンツの置換方法及びシステム Pending JP2005050156A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003281892A JP2005050156A (ja) 2003-07-29 2003-07-29 コンテンツの置換方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003281892A JP2005050156A (ja) 2003-07-29 2003-07-29 コンテンツの置換方法及びシステム

Publications (1)

Publication Number Publication Date
JP2005050156A true JP2005050156A (ja) 2005-02-24

Family

ID=34267269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003281892A Pending JP2005050156A (ja) 2003-07-29 2003-07-29 コンテンツの置換方法及びシステム

Country Status (1)

Country Link
JP (1) JP2005050156A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006317548A (ja) * 2005-05-10 2006-11-24 Advanced Telecommunication Research Institute International 教育用コンテンツ生成装置
JP2008065469A (ja) * 2006-09-05 2008-03-21 Sharp Corp 電子機器、その制御方法、および、翻訳文出力用プログラム
WO2008096902A1 (en) * 2007-02-07 2008-08-14 Sharp Kabushiki Kaisha Computer-implemented learning method and apparatus
JP2010072373A (ja) * 2008-09-19 2010-04-02 Hitachi Software Eng Co Ltd 電子黒板を利用した教育システム
JP2010122676A (ja) * 2008-11-21 2010-06-03 Sharp Corp コンピュータにより実行される語彙学習方法、語彙学習装置、語彙学習プログラム、及びコンピュータ読み取り可能な記録媒体
JP2011150723A (ja) * 2011-04-01 2011-08-04 Nomura Research Institute Ltd 画面情報生成方法、画面情報生成システムおよび画面情報生成プログラム
WO2021117114A1 (ja) * 2019-12-10 2021-06-17 日本電信電話株式会社 学習支援装置、学習支援方法、プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006317548A (ja) * 2005-05-10 2006-11-24 Advanced Telecommunication Research Institute International 教育用コンテンツ生成装置
JP4654438B2 (ja) * 2005-05-10 2011-03-23 株式会社国際電気通信基礎技術研究所 教育用コンテンツ生成装置
JP2008065469A (ja) * 2006-09-05 2008-03-21 Sharp Corp 電子機器、その制御方法、および、翻訳文出力用プログラム
WO2008096902A1 (en) * 2007-02-07 2008-08-14 Sharp Kabushiki Kaisha Computer-implemented learning method and apparatus
JP2010518416A (ja) * 2007-02-07 2010-05-27 シャープ株式会社 コンピュータ実現の学習方法および学習装置
JP2010072373A (ja) * 2008-09-19 2010-04-02 Hitachi Software Eng Co Ltd 電子黒板を利用した教育システム
JP2010122676A (ja) * 2008-11-21 2010-06-03 Sharp Corp コンピュータにより実行される語彙学習方法、語彙学習装置、語彙学習プログラム、及びコンピュータ読み取り可能な記録媒体
JP2011150723A (ja) * 2011-04-01 2011-08-04 Nomura Research Institute Ltd 画面情報生成方法、画面情報生成システムおよび画面情報生成プログラム
WO2021117114A1 (ja) * 2019-12-10 2021-06-17 日本電信電話株式会社 学習支援装置、学習支援方法、プログラム
JPWO2021117114A1 (ja) * 2019-12-10 2021-06-17
JP7294451B2 (ja) 2019-12-10 2023-06-20 日本電信電話株式会社 学習支援装置、学習支援方法、プログラム

Similar Documents

Publication Publication Date Title
Baron Language of the Internet
McKnight et al. Hypertext in context
Hockey Electronic texts in the humanities: principles and practice
KR100359265B1 (ko) 텍스트 프로세서
US20070112554A1 (en) System of interactive dictionary
US7181692B2 (en) Method for the auditory navigation of text
US6442523B1 (en) Method for the auditory navigation of text
JP2003529845A (ja) ネットワーク経由の多言語翻訳を提供する方法と装置
US20070011160A1 (en) Literacy automation software
JP3899414B2 (ja) 教師データ作成装置およびプログラム、ならびに言語解析処理装置およびプログラム
KR102146433B1 (ko) 연상기억법을 이용한 문맥 기반 언어 학습 서비스 제공 방법
Jones Text and context: document storage and processing
JP4827163B2 (ja) テスト問題配信システム
Simpson just XML
Ooi Investigating and teaching genres using the World Wide Web
JP2005050156A (ja) コンテンツの置換方法及びシステム
JP3638145B2 (ja) 穴埋め問題作成装置、穴埋め問題作成用のコンピュータプログラム及びそのプログラムを記録した記録媒体
WO2006122361A1 (en) A personal learning system
Browne et al. Website Indexing: enhancing access to information within websites
JP4205038B2 (ja) 穴埋め問題作成装置、穴埋め問題作成用のコンピュータプログラム及びそのプログラムを記録した記録媒体
Amitay What lays in the layout
Murphy Intermediality: experiencing the virtual text
Katja Hofmann Web corpus cleaning using content and structure
Siemens et al. Mind Technologies: Humanities Computing and the Canadian Academic Community
Trips et al. From original sources to linguistic analysis: Tools and datasets for the investigation of multilingualism in medieval english