JP2002082983A - 相違文字抽出システム - Google Patents

相違文字抽出システム

Info

Publication number
JP2002082983A
JP2002082983A JP2000311288A JP2000311288A JP2002082983A JP 2002082983 A JP2002082983 A JP 2002082983A JP 2000311288 A JP2000311288 A JP 2000311288A JP 2000311288 A JP2000311288 A JP 2000311288A JP 2002082983 A JP2002082983 A JP 2002082983A
Authority
JP
Japan
Prior art keywords
character
line
characters
sound
matches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000311288A
Other languages
English (en)
Inventor
Hougi Koyama
方宜 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2000311288A priority Critical patent/JP2002082983A/ja
Publication of JP2002082983A publication Critical patent/JP2002082983A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 仮名文字同士の相違部の抽出を簡易且つ確実
に行う。 【解決手段】 各文字列を、ア〜ワ行の50音、撥音の
ン、ガ・ザ・ダ・バ行の濁音、パ行の半濁音のいずれか
からなる頭文字と、その頭文字に付随し得る促音のッ、
長音のー、拗音用文字のャ・ュ・ョ、外来語用文字のァ
・ィ・ェ・ォのいずれかからなる付随文字との組ごとに
分解する。両文字列の適宜の頭文字同士を順方向に対応
させた組合せのセット全ての内、最も一致数の多いセッ
トを求める。最も一致数の多いセットの組合せを用い
て、その組合せの内、両文字列間で一致する組合せの対
応関係を維持しつつ相違部を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、平仮名ないし片仮
名の仮名文字列同士の相違部を抽出する方法・システム
に関し、特に商標の称呼における類否判断処理のため
に、称呼を示す文字列同士の相違部を抽出する方法・シ
ステムに関するものである。
【0002】
【発明の背景】商標の類否判断を簡易且つ客観的に行う
ために、本件発明者は先に、特願2000−25164
6号として、ニューラルネットワークを用いた商標の類
否判断システムを提案した。このシステムでは、特許庁
の過去の商標審決例等に基づいて、入力層に、対比する
二商標の称呼(仮名文字列)の相違部を与え、出力層
に、その対比する二商標の類似度を与えて構築されたニ
ューラルネットワークを利用するものであった。
【0003】具体的には例えば、入力層に(1)二商標
の互いに相違する文字それぞれの他、(2)一方の商標
の語長、(3)その一方の商標における前記互いに相違
する文字の商標全体での位置、(4)前記一方の商標に
おける前記互いに相違する文字の前後の各文字等を与
え、出力層には類似ないし非類似の別を与えて学習の
上、ニューラルネットワークを構築した。
【0004】そして、そのニューラルネットワークで
は、「ア」〜「ン」の50音の各文字を1文字の基本と
して、原則として、それらに濁点や半濁点、促音、拗音
用文字、外来語用文字、長音等が付いた状態で1文字と
判断している。つまり、「ア」行〜「ワ」行の各音から
なる50音、撥音「ン」、「ガ」行・「ザ」行・「ダ」
行・「バ」行の各音(及び「ヴ」)からなる濁音、
「パ」行の各音からなる半濁音を基本の頭文字として、
もしこの頭文字に促音「ッ」、長音「ー」、拗音用文字
「ャ」・「ュ」・「ョ」(・「ヮ」)、外来語用文字
「ァ」・「ィ」(・「ゥ」)・「ェ」・「ォ」からなる
付随文字が付随しているならば、頭文字と付随文字とを
一組として両者で1文字と認識することにしている。
【0005】例えば、「ボ」や「ピ」等の濁点や半濁点
が付いた文字は勿論、「ロッ」、「キョ」、「ウォ」、
「クー」等、促音、拗音用文字、外来語用文字、長音が
付いた文字も、それらが付いた状態で1文字としてい
る。また、「ディッ」や「ティー」等、促音や長音等が
2以上付いた文字も、原則として、それら全てが付いた
状態で1文字としている。
【0006】但し、二商標の互いに相違する部分に、こ
れら長音等がついた場合には例外が起こり得る。つま
り、上記法則で、一方の商標においては、長音等を付け
た状態で1文字とできても、他方の商標において、その
文字と対応する文字が2文字になってしまう場合には、
長音等のみでも1文字としている。
【0007】例えば、「ホームガード」と「ホームガイ
ド」の2商標を比較する場合では、相違部分は、「ガー
ド」の「ー」と「ガイド」の「イ」である。そして、
「ガード」の方だけを観察すると、「ガー」で1文字と
することもできるが、そのようにした場合には、「ガ
ー」と対応する対応文字を他方の商標で見ると、「ガ
イ」となり「ガ」と「イ」の2文字になってしまう。従
って、この場合には、「ガー」を「ガ」と「ー」の2文
字に分けて考え、「ー」と「イ」とを比較することにし
ている。
【0008】また、「アースラット」と「アースライ
ト」との比較の場合にも、一方の商標の「ラッ」の部分
は1文字とすることができるが、それでは他方の対応文
字が「ラ」と「イ」の2文字となってしまうので、この
ような場合も、「ラッ」を「ラ」と「ッ」の2文字に分
けて、「ッ」も1文字ととらえて、この「ッ」を他方の
商標中の対応文字「イ」と比較することにしている。
【0009】その他、同様に、「コーユー」と「コウユ
ー」との比較の場合は、「ー」と「ウ」とを1文字同士
として比較し、「カルティエ」と「カルティー」との比
較の場合には、「エ」と「ー」とを1文字同士として比
較することにしている。
【0010】また、「コープ」と「コアープ」との比較
の場合には、「コー」で1文字とすると、他方の商標の
対応文字が「コアー」になってしまう。そこで、この場
合には、「コー」を「コ」と「ー」に分けて、その
「ー」と、他方の商標中の対応文字「アー」とを比較す
ることにしている。
【0011】一方、「ユースター」と「アスター」とを
比較する場合には、相違部分は、「ユー」と「ア」とな
り、長音「ー」を付けた状態で比較しても、他方の商標
が2文字になるおそれがない場合には、分解しないこと
にしている。
【0012】なお、互いに相違する部分以外の箇所の文
字は、他方の商標の文字と同じであるため、長音等を付
けても他方の商標の対応部分が2文字になるおそれはな
く、従って、促音や長音等を付けた状態で1文字とする
ことにしている。
【0013】すなわち、原則として長音等が付いた状態
で1文字とし、相違文字近辺にのみ例外則が適用され
る。その判断は、以下の通りである。なお、ここでは、
便宜上、1字違いの商標の対比を考えている。まず、両
商標の相違を見つける。
【0014】(1)相違が特定文字の相違にある場合:
【0015】(a)50音文字(促音等付きの場合もあ
る)同士の相違の場合:その50音文字に促音等がつい
ていれば、それらを含めて1字として、比較する。
【0016】例えば、「チオコール」と「チモコール」
との比較の場合、「オ」と「モ」とが相違するので、
「オ」と「モ」を比較対象として抽出する。また、「ロ
イアン」と「ロイファン」との比較の場合、「ア」と
「ファ」とを抽出する。さらに、「チャッコ」と「サッ
コ」との比較の場合、「チャ」と「サ」とが相違する
が、それぞれに「ッ」が付いているので、「チャッ」と
「サッ」とを比較対象として抽出する。「マイクロテッ
ク」と「マイクロディック」との比較の場合も同様に、
「テッ」と「ディッ」とを比較対象として抽出し、「シ
ンクレート」と「シンクレーター」との比較の場合も同
様に、「ト」と「ター」とを比較対象として抽出する。
また、「エフエッチイー」と「エフエッチビー」の場合
には、「イー」と「ビー」を抽出する。さらに、「ジャ
ヴァ」と「ジャバー」との場合には、「ヴァ」と「バ
ー」とが抽出される。
【0017】(b)50音文字と促音等との相違である
場合:その50音文字と、促音等とをそれぞれ1文字と
して比較する。
【0018】例えば、「ハイター」と「ハッター」との
比較の場合、「イ」と「ッ」とが相違するので、「イ」
と「ッ」を比較対象として抽出する。「カロルド」と
「カロード」との比較の場合、「ル」と「ー」とが相違
するので、「ル」と「ー」を比較対象として抽出する。
もし、他方の商標から「ロー」を抽出すると、それと対
応する文字として、一方の商標からは「ロル」を抽出す
ることになり、2文字になってしまうからである。
【0019】(c)促音等同士の相違である場合:その
促音等の前にある50音文字を含めて1文字として比較
する。
【0020】例えば、「ルリード」と「ルリッド」との
比較の場合、「ー」と「ッ」とが相違するが、「リー」
と「リッ」を比較対象として抽出する。「チャッコ」と
「チャコ」との比較の場合は、「ャッ」と「ャ」とが相
違するが、「チャッ」と「チャ」を比較対象として抽出
する。なお、「チャッコ」と「チャコ」の場合、促音
「ッ」の有無に相違があると考えてもよく、その場合で
も後述の方法によって結果は同じになる。
【0021】(2)相違が特定文字の有無にある場合:
【0022】(a)50音文字(促音等付きの場合もあ
る)の有無の場合:その特定文字のある一方の商標から
は、その50音文字を抽出し、その特定文字のない他方
の商標からは、原則として空白(対応文字がない旨)を
比較対象として抽出する。その際、原則として、50音
文字に促音等が付いていれば、それらを含めて1字とす
る。
【0023】例えば、「ジョアナ」と「ジョナ」との比
較の場合、「ア」の文字の有無に相違があるので、
「ア」と「_」(空白)とを比較対象として抽出する。
また、「ジョルジュサンク」と「ジョルサンク」との比
較の場合、「ジュ」の文字の有無に相違があるので、
「ジュ」と「_」とを比較対象として抽出する。さら
に、「イイチコ」と「イチコ」の場合、「イ」と「_」
が抽出され、「エスエスケーケー」と「エスエスケー」
との比較の場合、「ケー」の文字の有無に相違があるの
で、「ケー」と「_」とを比較対象として抽出する。
【0024】なお、「イイチコ」と「イチコ」の場合、
「イイチコ」内の2つの「イ」の内、いずれの「イ」を
相違文字とすることもできるが、先頭の「イ」の有無と
考えるのが好ましい。これは、促音や長音等も出来る限
り含めて1文字ととらえようしたのと同様、出来る限り
まとまりのある形で対比部分を抽出する趣旨である。よ
って、上記「エスエスケーケー」と「エスエスケー」と
の場合も、両者の共通部分をできるだけ大きく取って、
「エスエスケーケー」から後ろ側の「ケー」を抽出する
のが好ましい。
【0025】一方、「シアーズ」と「シーズ」との比較
の場合、「ア」の有無に相違があるが、その「ア」には
長音「ー」が付いているので「アー」を抽出し、他方の
商標からは「アー」と対応する「ー」を抽出する。
【0026】(b)促音や長音のみの有無の場合:その
促音等のある一方の商標からは、促音等の前の50音も
含めて1字として抽出し、その促音等のない他方の商標
からは、対応する50音を比較対象として抽出する。
【0027】例えば、「ニッケ」と「ニケ」との比較の
場合、「ッ」の有無に相違があるが、「ッ」の前の
「ニ」の文字も含めて「ニッ」を抽出し、他方の商標か
らは、その対応文字として「ニ」を抽出する。また、
「エージー」と「エージ」との比較の場合も、「ー」の
有無に相違があるが、「ジー」と「ジ」とを比較対象と
して抽出する。
【0028】以上のようにして、両商標の相違部を抽出
して、その相違部等をニューラルネットワークの入力層
に与えることで、出力層の出力を得て、その出力値から
両商標の類似度を知ることが可能となる。
【0029】本発明の主たる目的は、これら一連の処理
を自動化することにある。そのために、入力ないし指定
等された二商標の各称呼(文字列)に基づいて、両者の
相違部を自動的に抽出し、その結果をニューラルネット
ワークの入力層に引き継ぐことにある、
【0030】
【課題を解決するための手段】本発明は、上記事情に鑑
みてなされたものであり、ここに引用・導入される上記
各請求項に記載のとおりのものである。
【0031】
【発明の実施の形態】以下、本発明の相違文字抽出方法
・システムについて、さらに詳細に説明する。
【0032】ここでは、図1に示すように、a〜a
の文字より構成される商標Aと、b〜bの文字より
構成される商標Bとの相違部を抽出する場合について考
えることにする。このことは、両商標を構成する文字列
をa〜aの文字と、b〜bの文字に分解するこ
とを意味する。なお、商標Aの各構成文字a(ここ
で、i=1〜n)や、商標Bの各構成文字b(ここ
で、j=1〜m)には、「ア」行〜「ワ」行の50音、
撥音「ン」、「ガ」行・「ザ」行・「ダ」行・「バ」行
の各音(及び「ヴ」)からなる濁音、「パ」行の半濁音
の他、促音「ッ」、長音「ー」、拗音用文字「ャ」・
「ュ」・「ョ」(・「ヮ」)、外来語用文字「ァ」・
「ィ」(・「ゥ」)・「ェ」・「ォ」のいずれか一つが
該当する。つまり、促音や長音等のみでもaやb
して成立する。例えば、商標Aが「ホームガイド」の場
合、a=「ホ」、a=「ー」、a=「ム」、a
=「ガ」、a=「イ」、a=「ド」に分解されるこ
とになる。
【0033】次に、各商標を構成する各仮名文字列を、
「ア」行〜「ワ」行の50音、撥音「ン」、「ガ」行・
「ザ」行・「ダ」行・「バ」行(及び「ヴ」)の濁音、
「パ」行の半濁音のいずれかからなる頭文字と、その頭
文字に付随し得る促音「ッ」、長音「ー」、拗音用文字
「ャ」・「ュ」・「ョ」(・「ヮ」)、外来語用文字
「ァ」・「ィ」(・「ゥ」)・「ェ」・「ォ」のいずれ
かからなる付随文字の組ごとに分解する。
【0034】これには、図2に示すように、商標Aにつ
いてはN行3列、商標BについてはM行3列からなる行
列(配列)を考えることにする。つまり、商標Aについ
ては、A(ka,p)(ここで、ka=1〜N,p=1
〜3)、商標Bについては、B(kb,p)(ここで、
kb=1〜M,p=1〜3)を考え、その各1列目、つ
まりA(ka,1)やB(kb,1)には前記頭文字が
代入され、各2列目及び3列目、つまりA(ka,
2),B(kb,2)やA(ka,3),B(kb,
3)には前記付随文字が代入される。
【0035】なお、商標「ガイド」のように、全ての構
成文字が頭文字となる場合に備えて、N≦n,M≦mと
すべきである。また、相違文字抽出後にニューロ等で類
否判断する際に、相違文字の前後の文字を使用したい場
合があり、その場合において語頭に相違文字があった場
合にその前側の文字がない旨や、語尾に相違文字があっ
た場合にその後側の文字がない旨を認識させるために、
ka=0やka=N+1、kb=0やkb=M+1の場
合まで考える場合もある。
【0036】このような処理を実現するために、まず図
6のフローチャートに示すような処理にて、A(ka,
p) ;ka=1〜N(場合により0〜N+1),p=
1〜3や、B(kb,p);kb=1〜M(場合により
0〜M+1),p=1〜3をすべて0に初期化した後、
図7のフローチャートに示すような処理にて、文字列中
の各文字a,bをA(ka,p),B(kb,p)
に代入して行き、頭文字ごとに区分けした。つまり、商
標Aの場合には、a ;i=1〜nが頭文字となり得
るか(50音等であるか否か)を判断して、頭文字とな
り得る場合にはそれをA(ka,1)に代入し、頭文字
でない場合(つまり付随文字の場合には)、その直前の
頭文字と同じ行で、列を1つ増やしてA(ka,2)に
代入すればよく、さらに付随文字が二回続いた場合には
A(ka,3)に代入すればよい。
【0037】このようにして、例えば商標Aが「チャッ
コ」の場合、A(1,1)=「チ」、A(1,2)=
「ャ」、A(1,3)=「ッ」、A(2,1)=「コ」
に分解されることになる。なお、この場合、これ以外の
他のA(ka,p)(例えばA(2,2)等)は全て0
である。なお、これらの処理において、最後の頭文字の
行番号から、頭文字の実際の個数NないしMも求められ
る。
【0038】次に、両商標の適宜の各頭文字同士を順方
向に対応させた組合せのセット全ての内、最も一致数の
多いセットを求める。このために、まず図8のフローチ
ャートに示すような処理にて、両商標の各頭文字同士の
全ての組合せについての一致性をみておくのが好まし
い。ここでは、一致する場合には「1」、一致しない場
合には「0」を入れて確認している。
【0039】適宜の頭文字の順方向の組合せとは、図3
の樹形図に示すように、両商標の頭文字同士を対応させ
る場合に、各商標の頭文字の行番号が逆方向に進むこと
がないということである。図3では、括弧書き内の前側
の数値が、商標Aの頭文字の行番号kaを示し、後側の
数値が、商標Bの頭文字の行番号kbを示しており、こ
れは図中右側(樹形図末端側)に行くに従ってそれぞれ
増えることがあっても減ることはないのであり、この条
件を満たす限り増加数は任意である。図3では、説明の
都合上、4頭文字同士の組合せを示しているが、実際に
はもっと多くなるのは言うまでもない。この文字数は、
ニューラルネットワーク入力層における語長のユニット
に影響を受けて決定される。なお、図3中、あるセット
の全ての組合せが他のセットに完全に含まれることで重
複する場合には、省略可能である。例えば、(1,1)
−(4,4)セットは、(1,1)−(2,2)−
(3,3)−(4,4)のセットに含まれるので省略可
能である。同様に、(2,2)−(3,3)−(4,
4)のセットや、(3,3)−(4,4)のセット、
(4,4)だけのセット等も省略可能である。
【0040】このようにして、重複するセットを消去し
て、適宜の頭文字を順方向に組合せたセットについて、
図4に示すようなテーブルを作成する。このテーブルで
は、セットごとにセットナンバーNOを付し、各セット
における組合せの数NUM(NO)と、実際の組合せの
内容を対応させている。そして、このテーブルを用い
て、頭文字同士の一致が最も多い組合せを有するセット
を特定する。
【0041】具体的には、図9のフローチャートに示す
ように、セットナンバーNO=1〜NOEそれぞれにつ
いて、まず組合せ数NUM(NO)を前記テーブルから
読み出して、その数の分だけ頭文字の組合せを順に読み
出して、上述した手法により予め求めておいた各組合せ
での頭文字の一致性(0か1か)に基づいて、各セット
内の組合せでの頭文字同士が幾つ一致しているかを求め
ることで、最も一致数の多いセットを特定するのであ
る。
【0042】最も一致数の多い組合せのセットを求めた
後、そのセットを構成する組合せを前記テーブルから読
み出して利用することで、その組合せのいずれにも使用
されない頭文字は、その付随文字を伴って他方の文字列
に対応文字がないと認識される。また、そのセット内の
組合せに使用される頭文字は、他方の文字列の対応文字
と比較され、それが両文字列間で一致しない場合には、
それぞれの付随文字付き頭文字が、他方の文字列に対応
文字がない(例えば、商標B内のある文字について商標
Aに対応文字がない場合にはA(ka,1)=0,A
(ka,2)=0,A(ka,3)=0)と認識されて
前後にずらされる。つまり、頭文字同士が一致する部分
はその対応を保ちつつ、一致しない部分は対応文字がな
いとして前後にずらされる。このような一連の処理をA
やBの先頭から末尾にかけて行い、Aに対応したX(N
N,P)、Bに対応したY(NN,P)をそれぞれ作成
する。なお、実際の処理は、図10及びその続きを示す
図11のフローチャートに示す処理にて達成される。ま
た、一の付随文字付き頭文字をずらす際には、それに伴
って、他の文字もずらされることがあるのは言うまでも
ない。
【0043】この後、対応文字がない旨の認識符号(つ
まり例えば、X(NN,1)=0,X(NN,2)=
0,X(NN,3)=0)が両文字列間で隣接してある
場合(この例の場合、Y(NN±1,1)=0,Y(N
N±1,2)=0,Y(NN±1,3)=0)に、それ
が消去されて前後合わせがなされる。すなわち、頭文字
のみについて考えると、例えば一方の商標が「0BC」
で、他方の商標が「A0C」の場合、互いの商標中の隣
接して配置された各0が消去されて、「BC」と「A
C」との対比に簡略化されることになる。同様に、一方
の商標が「00B1B C」で、他方の商標が「A
00C」の場合、互いの商標中の隣接して配置された
各00が消去されて、「BC」と「AC」
との対比に簡略化されることになる。なお、実際の処理
は、図12のフローチャートに示す処理にて達成され
る。また、これと同様にして、一方の商標が「A0C」
で、他方の商標が「0BC」の場合、互いの商標中の隣
接して配置された各0が消去されて、「AC」と「B
C」との対比にする処理も行う。
【0044】以上のようにして、最終的には、図5に示
すような行列(配列)として、X(NN,p)とY(N
N,p) ;NN=1〜NE(実際には0〜NE+1で
あるが0やNE+1の場合は必ず0とされている),p
=1〜3が作成されるので、両者の相違部を順に見てい
けばよい。
【0045】つまり最後に、両文字列の各対応文字の一
致性を順に確認することで、相違文字を抽出ないし特定
することができる。相違文字のみならずその前後の文字
をも考慮して商標類否判断を行うニューラルネットワー
クの入力層パターン情報は、図13のフローチャートに
示される処理にて作成することができる。なお、図中X
S及びYSが互いに相違する文字で、XBがその前側の
文字、XAがその後側の文字である。また、例えばXS
(j,1)は頭文字を示し、XS(j,2)やXS
(j,2)は付随文字を示している。さらに、jは相違
数(j番目の相違部である旨)を示している。
【0046】具体的には、まず同行の頭文字同士を比較
し、一致しない場合には、その付随文字と共にその行の
文字同士が相違部として抽出される。また、同行の頭文
字同士が一致していても、その付随文字同士が一致しな
い場合も、そこが相違部として抽出される。その際、双
方に付随文字があれば、その付随文字付き頭文字同士が
相違部として抽出されるが、一方には付随文字があるの
に他方にはない場合で、次行の一方が空白(対応文字が
ない)の場合には、一方の付随文字と他方の次行の付随
文字付き頭文字が抽出される。このようにして、付随文
字を抽出した後,必要に応じてその前後の文字を抽出す
ればよい。
【0047】なお、いま頭文字のみについて考えたと
き、一方の商標が「AAB」で、他方の商標が「A0
B」の場合、「AAB」と「0AB」との対比として相
違部のAと0を抽出するのが好ましい。つまり、語頭の
相違についてX(1,i)=X(2,i)=Y(1,
i)で且つY(2,i)=0のとき、Y(1,i)とY
(2,i)を交換するのが好ましい。なお、i=1〜3
である(以下同様)。
【0048】これと同様に、一方の商標が「C0D」
で、他方の商標が「CCD」の場合も、「0CD」と
「CCD」との対比として相違部の0とDを抽出するの
が好ましい。つまり、語頭の相違についてX(1,i)
=Y(1,i)=Y(2,i)で且つX(2,i)=0
のとき、X(1,i)とX(2,i)を交換するのが好
ましい。
【0049】また、語尾についても同様に、一方の商標
が「ABB」で、他方の商標が「A0B」の場合は、
「ABB」と「AB0」との対比として相違部のBと0
を抽出するのが好ましい。つまり、語尾の相違について
X(NE,i)=X(NE−1,i)=Y(NE,i)
で且つY(NE−1,i)=0のとき、Y(NE,i)
とY(NE−1,i)を交換するのが好ましい。
【0050】これと同様に、一方の商標が「C0D」
で、他方の商標が「CDD」の場合は、「CD0」と
「CDD」との対比として相違部の0とDを抽出するの
が好ましい。つまり、語尾の相違についてX(NE,
i)=Y(NE,i)=Y(NE−1,i)で且つX
(NE−1,i)=0のとき、X(NE,i)とX(N
E−1,i)を交換するのが好ましい。
【0051】このような処理を施すことで、例えば「イ
イチコ」と「イチコ」の場合、「イイチコ」内の2つの
「イ」の内、先頭の「イ」の有無と考えることができ
る。また、「エスエスケーケー」と「エスエスケー」と
の場合も、両者の共通部分をできるだけ大きく取って、
「エスエスケーケー」から後ろ側の「ケー」の有無とし
て相違部を抽出することが可能となる。
【0052】なお、本発明の相違文字抽出方法・システ
ムは、上記実施例の構成に限らず、適宜変更可能であ
る。例えば、上記実施例では、商標の称呼を仮名読みに
直してその類否判断のために相違部を抽出する場合を例
としたが、商標以外のキーワードや各種文字列の相違部
の抽出に広く適用可能である。
【0053】また、上記実施例では、長音や促音は付随
文字として処理したが、これを頭文字として処理すれ
ば、本件発明者が特願2000−52501号として提
案済みの商標審査基準準拠型の類否判断処理のための相
違部抽出に利用可能となろう。つまり、何を頭文字とし
て、何を付随文字とするかは適宜変更可能である。
【0054】さらに、本発明の上記のような処理を実行
するコンピュータプログラムは、CD−ROMやフロッ
ピィーディスク等のコンピュータ読取可能な各種の記録
媒体として頒布可能である。また、このコンピュータプ
ログラムは、通信回線を介して、各種端末に伝送して供
給することも可能である。これらの場合において、本発
明の処理部分が、プログラムの全体となる場合は勿論、
一部のアルゴリズムとして使用されている場合であって
もよい。
【0055】
【発明の効果】以上詳述したように、本発明の相違文字
抽出システムによれば、仮名文字列同士の相違部の抽出
が簡易且つ確実に行える。
【図面の簡単な説明】
【図1】本発明の相違文字抽出方法にて相違部が抽出さ
れる商標Aと商標Bの構成を示す図である。
【図2】図1の商標Aや商標Bを頭文字ごとに区分けし
た構成を示す図である。
【図3】頭文字が4文字の場合において、各頭文字同士
の順方向の組合せを示す樹形図である。
【図4】図3の樹形図に基づいて、頭文字の順方向の組
合せについて作成されたテーブルの一部を示す図であ
る。
【図5】商標Aと商標Bの共通部を可能な限り対応させ
た後の状態である文字列配列XとYを示す図である。
【図6】本発明の相違文字抽出方法の一実施例の処理の
一部を示すフローチャートであり、配列Aの初期化処理
を示している。
【図7】本発明の相違文字抽出方法の一実施例の処理の
一部を示すフローチャートであり、頭文字ごとに区分け
する処理を示している。
【図8】本発明の相違文字抽出方法の一実施例の処理の
一部を示すフローチャートであり、頭文字同士の全組合
せの一致性の確認処理を示している。
【図9】本発明の相違文字抽出方法の一実施例の処理の
一部を示すフローチャートであり、図4のテーブルを用
いて、頭文字同士の一致数が最も多いセットを求める処
理を示している。
【図10】本発明の相違文字抽出方法の一実施例の処理
の一部を示すフローチャートであり、図9で求められた
セットの組合せを用いて、一致部の対応を維持しつつ不
一致部を前後にずらす処理を示している。
【図11】本発明の相違文字抽出方法の一実施例の処理
の一部を示すフローチャートであり、図10の処理の続
きを示している。
【図12】本発明の相違文字抽出方法の一実施例の処理
の一部を示すフローチャートであり、前後に隣接した空
白を埋める処理を示している。
【図13】本発明の相違文字抽出方法の一実施例の処理
の一部を示すフローチャートであり、ニューラルネット
ワークの入力層へ与えるための入力層パターン情報を作
成する処理を示している。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 仮名文字列同士の相違部を抽出する処理
    を含むシステムであって、 各文字列は、「ア」行〜「ワ」行の50音、撥音
    「ン」、「ガ」行・「ザ」行・「ダ」行・「バ」行の濁
    音、「パ」行の半濁音を含むいずれかからなる頭文字
    と、その頭文字に付随し得る促音「ッ」、長音「ー」、
    拗音用文字「ャ」・「ュ」・「ョ」、外来語用文字
    「ァ」・「ィ」・「ェ」・「ォ」を含む付随文字との組
    ごとに分解され、 両文字列の適宜の頭文字同士を順方
    向に対応させた組合せのセット全ての内、最も一致数の
    多いセットを求め、 最も一致数の多いセットの組合せを用いて、その組合せ
    の内、両文字列間で一致する組合せの対応関係を維持し
    つつ相違部が抽出されることを特徴とする相違文字抽出
    システム。
  2. 【請求項2】 仮名文字列同士の相違部を抽出する処理
    を含むシステムであって、 各文字列は、「ア」行〜「ワ」行の50音、撥音
    「ン」、「ガ」行・「ザ」行・「ダ」行・「バ」行の濁
    音、「パ」行の半濁音、促音「ッ」、長音「ー」を含む
    いずれかからなる頭文字と、その頭文字に付随し得る拗
    音用文字「ャ」・「ュ」・「ョ」、外来語用文字「ァ」
    ・「ィ」・「ェ」・「ォ」を含む付随文字との組ごとに
    分解され、 両文字列の適宜の頭文字同士を順方向に対応させた組合
    せのセット全ての内、最も一致数の多いセットを求め、 最も一致数の多いセットの組合せを用いて、その組合せ
    の内、両文字列間で一致する組合せの対応関係を維持し
    つつ相違部が抽出されることを特徴とする相違文字抽出
    システム。
  3. 【請求項3】 前記最も一致数の多いセットの組合せを
    用いて、その組合せのいずれにも使用されない頭文字
    は、その付随文字を伴って他方の文字列に対応文字がな
    いと認識され、 同じく前記最も一致数の多いセットの組合せを用いて、
    その組合せに使用される頭文字は、他方の文字列の対応
    文字と比較され、それが両文字列間で一致しない場合に
    は、それぞれの付随文字付き頭文字が、他方の文字列に
    対応文字がないと認識されて前後にずらされ、 対応文字がない旨の認識符号が両文字列間で隣接してあ
    る場合に、それが消去されて前後合わせがなされ、 両文字列の各対応文字の一致性を順に確認することで、
    相違文字が抽出されることを特徴とする請求項1又は請
    求項2に記載の相違文字抽出システム。
  4. 【請求項4】 特許庁の過去の商標審決例等に基づき作
    成され、対比する二つの称呼に基づく入力層学習信号
    と、その二つの称呼の類否判断結果に基づく出力層教師
    信号とからなる学習用パターン情報を、多数学習させて
    構築されるニューラルネットワークの入力層に、対比す
    る二つの称呼の相違部に基づいて作成される入力層パタ
    ーン情報を与えるために、対比する両称呼に基づき相違
    部が抽出されることを特徴とする請求項1から請求項3
    までのいずれかに記載の相違文字抽出システム。
  5. 【請求項5】 仮名文字列同士の相違部を抽出するため
    に、 各文字列を、「ア」行〜「ワ」行の50音、撥音
    「ン」、「ガ」行・「ザ」行・「ダ」行・「バ」行の濁
    音、「パ」行の半濁音を含むいずれかからなる頭文字
    と、その頭文字に付随し得る促音「ッ」、長音「ー」、
    拗音用文字「ャ」・「ュ」・「ョ」、外来語用文字
    「ァ」・「ィ」・「ェ」・「ォ」を含む付随文字との組
    ごとに分解するステップと、 両文字列の適宜の頭文字同士を順方向に対応させた組合
    せのセット全ての内、最も一致数の多いセットを求める
    ステップと、 最も一致数の多いセットの組合せを用いて、その組合せ
    のいずれにも使用されない頭文字を、その付随文字を伴
    って他方の文字列に対応文字がないと認識するステップ
    と、 最も一致数の多いセットの組合せを用いて、その組合せ
    に使用される頭文字を、他方の文字列の対応文字と比較
    し、それが両文字列間で一致しない場合には、それぞれ
    の付随文字付き頭文字を、他方の文字列に対応文字がな
    いと認識して前後にずらすステップと、 対応文字がない旨の認識符号が両文字列間で隣接してあ
    る場合に、それを消去して前後合わせを行うステップ
    と、 両文字列の各対応文字の一致性を順に確認することで、
    相違文字を抽出するステップとを、 コンピュータに実行させるためのプログラムを記録した
    コンピュータ読取可能な記録媒体、又はコンピュータに
    実行させるためのコンピュータ読取可能なプログラムを
    伝送する情報伝送媒体。
  6. 【請求項6】 仮名文字列同士の相違部を抽出するため
    に、 各文字列を、「ア」行〜「ワ」行の50音、撥音
    「ン」、「ガ」行・「ザ」行・「ダ」行・「バ」行の濁
    音、「パ」行の半濁音、促音「ッ」、長音「ー」を含む
    いずれかからなる頭文字と、その頭文字に付随し得る拗
    音用文字「ャ」・「ュ」・「ョ」、外来語用文字「ァ」
    ・「ィ」・「ェ」・「ォ」を含む付随文字との組ごとに
    分解するステップと、 両文字列の適宜の頭文字同士を順方向に対応させた組合
    せのセット全ての内、最も一致数の多いセットを求める
    ステップと、 最も一致数の多いセットの組合せを用いて、その組合せ
    のいずれにも使用されない頭文字を、その付随文字を伴
    って他方の文字列に対応文字がないと認識するステップ
    と、 最も一致数の多いセットの組合せを用いて、その組合せ
    に使用される頭文字を、他方の文字列の対応文字と比較
    し、それが両文字列間で一致しない場合には、それぞれ
    の付随文字付き頭文字を、他方の文字列に対応文字がな
    いと認識して前後にずらすステップと、 対応文字がない旨の認識符号が両文字列間で隣接してあ
    る場合に、それを消去して前後合わせを行うステップ
    と、 両文字列の各対応文字の一致性を順に確認することで、
    相違文字を抽出するステップとを、 コンピュータに実行させるためのプログラムを記録した
    コンピュータ読取可能な記録媒体、又はコンピュータに
    実行させるためのコンピュータ読取可能なプログラムを
    伝送する情報伝送媒体。
  7. 【請求項7】 仮名文字列同士の相違部を抽出する方法
    であって、 各文字列を、「ア」行〜「ワ」行の50音、撥音
    「ン」、「ガ」行・「ザ」行・「ダ」行・「バ」行の濁
    音、「パ」行の半濁音を含むいずれかからなる頭文字
    と、その頭文字に付随し得る促音「ッ」、長音「ー」、
    拗音用文字「ャ」・「ュ」・「ョ」、外来語用文字
    「ァ」・「ィ」・「ェ」・「ォ」を含む付随文字との組
    ごとに分解し、 両文字列の適宜の頭文字同士を順方向に対応させた組合
    せのセット全ての内、最も一致数の多いセットを求め、 最も一致数の多いセットの組合せを用いて、その組合せ
    のいずれにも使用されない頭文字を、その付随文字を伴
    って他方の文字列に対応文字がないと認識し、 最も一致数の多いセットの組合せを用いて、その組合せ
    に使用される頭文字を、他方の文字列の対応文字と比較
    し、それが両文字列間で一致しない場合には、それぞれ
    の付随文字付き頭文字を、他方の文字列に対応文字がな
    いと認識しつつ前後にずらし、 対応文字がない旨の認識符号が両文字列間で隣接してあ
    る場合に、それを消去して前後合わせを行い、 両文字列の各対応文字の一致性を順に確認することで、
    相違文字を抽出することを特徴とする相違文字抽出方
    法。
  8. 【請求項8】 仮名文字列同士の相違部を抽出する方法
    であって、 各文字列を、「ア」行〜「ワ」行の50音、撥音
    「ン」、「ガ」行・「ザ」行・「ダ」行・「バ」行の濁
    音、「パ」行の半濁音、促音「ッ」、長音「ー」を含む
    いずれかからなる頭文字と、その頭文字に付随し得る拗
    音用文字「ャ」・「ュ」・「ョ」、外来語用文字「ァ」
    ・「ィ」・「ェ」・「ォ」を含む付随文字との組ごとに
    分解し、 両文字列の適宜の頭文字同士を順方向に対応させた組合
    せのセット全ての内、最も一致数の多いセットを求め、 最も一致数の多いセットの組合せを用いて、その組合せ
    のいずれにも使用されない頭文字を、その付随文字を伴
    って他方の文字列に対応文字がないと認識し、 最も一致数の多いセットの組合せを用いて、その組合せ
    に使用される頭文字を、他方の文字列の対応文字と比較
    し、それが両文字列間で一致しない場合には、それぞれ
    の付随文字付き頭文字を、他方の文字列に対応文字がな
    いと認識しつつ前後にずらし、 対応文字がない旨の認識符号が両文字列間で隣接してあ
    る場合に、それを消去して前後合わせを行い、 両文字列の各対応文字の一致性を順に確認することで、
    相違文字を抽出することを特徴とする相違文字抽出方
    法。
JP2000311288A 2000-09-05 2000-09-05 相違文字抽出システム Withdrawn JP2002082983A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000311288A JP2002082983A (ja) 2000-09-05 2000-09-05 相違文字抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000311288A JP2002082983A (ja) 2000-09-05 2000-09-05 相違文字抽出システム

Publications (1)

Publication Number Publication Date
JP2002082983A true JP2002082983A (ja) 2002-03-22

Family

ID=18791082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000311288A Withdrawn JP2002082983A (ja) 2000-09-05 2000-09-05 相違文字抽出システム

Country Status (1)

Country Link
JP (1) JP2002082983A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005101235A1 (ja) * 2004-04-12 2005-10-27 Matsushita Electric Industrial Co., Ltd. 対話支援装置
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005101235A1 (ja) * 2004-04-12 2005-10-27 Matsushita Electric Industrial Co., Ltd. 対話支援装置
US7650283B2 (en) 2004-04-12 2010-01-19 Panasonic Corporation Dialogue supporting apparatus
CN1942875B (zh) * 2004-04-12 2010-05-26 松下电器产业株式会社 对话支援装置
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts

Similar Documents

Publication Publication Date Title
US6230131B1 (en) Method for generating spelling-to-pronunciation decision tree
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
US7263488B2 (en) Method and apparatus for identifying prosodic word boundaries
Van Berkel et al. Triphone Analysis: A Combined Method for the Correction of Orthographical and Typographical Errors.
CN113779972B (zh) 语音识别纠错方法、系统、装置及存储介质
CN109545183A (zh) 文本处理方法、装置、电子设备及存储介质
WO1994016437A1 (en) Speech recognition system
JP2005258439A (ja) 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
EP0824749A1 (en) Improving the reliability of word recognizers
DE60312963T2 (de) Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen
de Silva et al. Singlish to sinhala transliteration using rule-based approach
JP2002082983A (ja) 相違文字抽出システム
CN111898342A (zh) 一种基于编辑距离的中文发音校验方法
Pallett Session 2: DARPA resource management and ATIS benchmark test poster session
Faraclas et al. Assimiliation, Dissimilation and Fusion: Vowel Quality and Verbal Reduplication in Lower Cross
CN105511636B (zh) 改进的全部汉字汉词简易无重码统一输入法
JP3758241B2 (ja) 音声情報検索装置
JP2001222553A (ja) 商標等の類否判断システム及び類似物作成システム
Kamm et al. Automatic selection of transcribed training material
KR102618219B1 (ko) 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을미세 조정하는 방법 및 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을 미세 조정하기 위한 전자 장치
JPS6229796B2 (ja)
JP3059207B2 (ja) ネットワーク作成装置
CN115186653A (zh) 目标领域样本库建立方法、装置、计算机设备和存储介质
JP2002189490A (ja) ピンイン音声入力の方法
Rangkuti et al. Indian Contribution to Language Sciences in Non-Western Tradition: With Reference to Arabic

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071106