DE69633595T2

DE69633595T2 - Verfahren und Gerät zur Erweiterung und Wiedergewinnung von ähnlichen Zeichenfolgen.

Info

Publication number: DE69633595T2
Application number: DE69633595T
Authority: DE
Inventors: Yuji Oota-ku Kanno
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1995-06-12
Filing date: 1996-03-20
Publication date: 2005-10-13
Anticipated expiration: 2016-03-21
Also published as: DE69633595D1; EP0749076B1; JP2927706B2; JPH08339378A; EP1380966A2; EP1380966A3; EP0749076A1; US5835892A

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung, bei denen eine Vielzahl von ähnlichen Zeichenfolgen, die einer Fragezeichenfolge (oder einem Fragenamen) ähneln, erweitert wird, und ein Verfahren und eine Vorrichtung, bei denen eine Vielzahl von registrierten Zeichenfolgen (oder registrierten Namen), die jeweils mit einer der ähnlichen Zeichenfolgen übereinstimmen, aus einer Datenbank wiedergewonnen wird, in der eine Vielzahl von registrierten Namen wie beispielsweise Marken für eine Ware oder eine Dienstleistung, Namen von organischen Verbindungen, Ortsnamen, Personennamen, Namen von Büchern, Namen von Rennpferden und dergleichen gespeichert sind.
In jüngster Zeit ist mit der Verbreitung einer Eingabe-/Ausgabevorrichtung der japanischen Sprache wie beispielsweise eines Textsystems, eines Personalcomputers oder dergleichen und eines Speicherträgers wie beispielsweise eines Nur-Lese-Speichers des Compact-Disc-Typs (CD-ROM) eine ausgedehnte Textdatenbank mit großen Stücken von Zeichenfolgen angebenden Daten auf verschiedenen Gebieten vorbereitet und verwendet worden. Ferner ist in jüngster Zeit eine Technik zum Wiedergewinnen der Daten der Zeichenfolgen mit hoher Geschwindigkeit aus der ausgedehnten Textdatenbank auf einem industriellen Gebiet bemerkt worden. Insbesondere sind eine Technik zum Erweitern und Vorbereiten von einem Fragenamen ähnelnde Namen angebenden Daten ähnlicher Zeichenfolgen gemäß einem Satz von Ähnlichkeitskriterien und eine Technik zum Wiedergewinnen einer Vielzahl von jeweils mit Daten einer der ähnlichen Zeichenfolgen übereinstimmenden Namen mit hoher Geschwindigkeit aus einer Datenbank, in der eine Vielzahl von registrierten Namen wie beispielsweise Marken für eine Ware oder eine Dienstleistung, Namen von organischen Verbindungen, Ortsnamen, Personennamen, Buchnamen, Namen von Rennpferden und dergleichen gespeichert sind, allgemein bekannt gewesen.
Bei einem bekannten Zeichenfolgenwiedergewinnungsverfahren werden alle ähnlichen Zeichenfolgen, die einem Fragenamen ähneln, gemäß einem Satz von Ähnlichkeitskriterien erweitert und vorbereitet, und alle die ähnlichen Zeichenfolgen werden eine nach der anderen überprüft, um zu untersuchen, ob ein mit einer der ähnlichen Zeichenfolgen übereinstimmender Name in einer Datenbank vorhanden ist oder nicht.
Ein Verfahren zur Erweiterung ähnlicher Zeichenfolgen, ein Indizierungsverfahren und ein Verfahren zur Wiedergewinnung von Aussprachenzeichenfolgen bei einer Operation zum Wiedergewinnen einer Vielzahl von eingetragenen Marken, die mit einer ähnlichen Zeichenfolge einer Vielzahl von ähnlichen Zeichenfolgen übereinstimmen, die einem Fragenamen in der Aussprache ähneln, aus einer Datenbank wird als ein Beispiel beschrieben.
Ein unter Verwendung einer Vielzahl von Aussprachenähnlichkeitskriterien ausgeführtes bekanntes Verfahren zur Erweiterung ähnlicher Zeichenfolgen wird anfänglich unter Bezugnahme auf 1 bis 4 beschrieben.
1 zeigt ein Blockschaltbild einer bekannten Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen, in der eine Vielzahl von erweiterten Aussprachenzeichenfolgen, die einer Frageaussprachenzeichenfolge in der Aussprache ähneln, gemäß einem bekannten Verfahren zur Erweiterung ähnlicher Zeichenfolgen erweitert wird.
Wie in 1 gezeigt besteht eine bekannte Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 101 aus einer ersten, zweiten, dritten, vierten und fünften Erweiterungseinheit für erweiterte Aussprachenzeichenfolgen 102 bis 106 zum jeweiligen Speichern einer Aussprachenerweiterungsregel einer durch ein Verkörpern einer Vielzahl von Aussprachenähnlichkeitskriterien erhaltenen Vielzahl von Aussprachenerweiterungsregeln und einer der gespeicherten Aussprachenerweiterungsregel entsprechenden Aussprachenfolgenerweiterungsprozedur und jeweiligen Erhalten und Erweitern aller erweiterten Aussprachenzeichenfolgen, die einer durch einen Benutzer in einem japanischen katakana-Ausdruck eingegebenen Frageaussprachenzeichenfolge in der Aussprache ähneln, gemäß der gespeicherten Aussprachenerweiterungsregel, einer Sammlungs- und Neuanordnungseinheit für erweiterte Aussprachenzeichenfolgen 107 zum Sammeln der gemäß den Aussprachenerweiterungsregeln durch die erste, zweite, dritte, vierte und fünfte Erweiterungseinheit für erweiterte Aussprachenzeichenfolgen 102 bis 106 erhaltenen erweiterten Aussprachenzeichenfolgen und Neuanordnen der erweiterten Aussprachenzeichenfolgen in der Reihenfolge der japanischen Silbenschrift (syllabary) und einer Überlappende-Zeichenfolgen-Entfernungseinheit 108 zum Ändern einer Vielzahl von durch die gleiche Aussprache ausgesprochenen erweiterten Aussprachenzeichenfolgen zu einer erweiterten Aussprachenzeichenfolge zum Entfernen überlappender Zeichenfolgen aus den erweiterten Aussprachenzeichenfolgen und Ausgeben einer Gruppe von erweiterten Aussprachenzeichenfolgen, in denen keine überlappende Zeichenfolge vorhanden ist.
Die japanische Silbenschrift, bei der eine Vielzahl von in dem japanischen katakana-Ausdruck geschriebenen Silbentabellen bzw. Silbenschriften in der gleichen Zeile plaziert ist, ist in 2 gezeigt, und jedes von Zeichen wie beispielsweise Silbenschriften entspricht einem Laut (oder einer Silbe). Daher wird in dieser Patentbeschreibung häufig ein Wort "Laut" anstelle eines Worts "Zeichen" verwendet. Die Beschreibung "ein in einer Zeichenfolge vorhandener (oder plazierter) Laut" ist zum Beispiel äquivalent zu der Beschreibung "ein in einer Zeichenfolge vorhandenes (oder plaziertes) Zeichen". Die durch die Erweiterungseinheiten für erweiterte Aussprachenzeichenfolgen 102 bis 106 verkörperten Aussprachenähnlichkeitskriterien sind in 3 als ein Beispiel gezeigt. Ferner sind die in den Erweiterungseinheiten für erweiterte Aussprachenzeichenfolgen 102 bis 106 gespeicherten fünf Aussprachenerweiterungsregeln in 4 als ein Beispiel gezeigt.
Bei den in 3 gezeigten Aussprachenähnlichkeitskriterien wird es beurteilt, daß ein Paar von Aussprachenzeichenfolgen von Worten einander ähnelt, falls die Aussprachenzeichenfolgen unter der Bedingung, daß einer der folgenden vier Typen von Unterschieden bei den Aussprachenzeichenfolgen nicht als ein Aussprachenunterschied betrachtet wird, in der Aussprache gleich sind. Der Unterschied zwischen dem Vorhandensein eines schwachen Lauts wie beispielsweise "na", "nu" oder "ru" an einer Position eines Worts bis auf eine oberste Position des Worts und keinem Vorhandensein eines schwachen Lauts ist ein Unterschied eines ersten Typs. Ein Paar von Aussprachenzeichenfolgen "na-shi" und "na-shi-ru" steht zum Beispiel in einer Beziehung des Unterschieds des ersten Typs. Bei einem Unterschied eines zweiten Typs stehen ein Laut eines Zeichens einer Aussprachenzeichenfolge und ein Laut eines Zeichens einer anderen Aussprachenzeichenfolge, die an der gleichen Position von Worten plaziert sind, in einer Beziehung einer Gruppe von schwachen Lauten "na", "nu" und "ru". Ein Paar von Aussprachenzeichenfolgen "na-shi" und "nu-shi" steht zum Beispiel in einer Beziehung des Unterschieds des zweiten Typs. Bei einem Unterschied eines dritten Typs stehen ein Laut eines Zeichens einer Aussprachenzeichenfolge und ein Laut eines Zeichens einer anderen Aussprachenzeichenfolge, die an der gleichen Position von Worten plaziert sind, in einer Beziehung einer Gruppe von in der gleichen Zeile der japanischen Silbenschrift plazierten Lauten. Ein Paar der Aussprachenzeichenfolge "na-sho-na-ru", die die gleiche Aussprache wie ein Wort "national" angibt, und der Aussprachenzeichenfolge "na-sho-nu-ru" steht zum Beispiel in einer Beziehung des Unterschieds des dritten Typs. Die Kombination des Unterschieds des zweiten Typs und des Unterschieds des dritten Typs ist unter der Bedingung, daß die Anzahl von Lauten in jeder Aussprachenzeichenfolge eines Paars von Aussprachenzeichenfolgen gleich oder größer als fünf ist, ein Unterschied eines fünften Typs. Ein Paar von Aussprachenzeichenfolgen "pa-na-so-ni-kku" und "pa-nu-so- ne-kku" steht zum Beispiel in einer Beziehung des Unterschieds des vierten Typs. Ein Symbol "kk" bezeichnet einen doppelten Konsonanten. Eine Teilzeichenfolge "so-ni-kku" gibt die gleiche Aussprache wie ein Wort "sonic" an.
Eine Aussprachenzeichenfolge oder mehrere Aussprachenzeichenfolgen werden aus einer Frageaussprachenzeichenfolge erzeugt, indem eine der in 4 gezeigten folgenden fünf Aussprachenerweiterungsregeln angewendet wird, und die Aussprachenzeichenfolgen werden als eine erweiterte Aussprachenzeichenfolge oder mehrere erweiterte Aussprachenzeichenfolgen, die der Frageaussprachenzeichenfolge in der Aussprache ähneln, eingeführt.
Bei einer ersten Aussprachenerweiterungsregel wird in Fällen, in denen eine Frageaussprachenzeichenfolge mit zwei oder mehr Lauten einen schwachen Laut "na", "nu" oder "ru" an einer Position bis auf eine oberste Position der Folge aufweist, eine erweiterte Aussprachenzeichenfolge aus der Frageaussprachenzeichenfolge erzeugt, indem der schwache Laut der Frageaussprachenzeichenfolge gelöscht wird. Es werden zum Beispiel erweiterte Aussprachenzeichenfolgen "na-shi-ru" und "na-shi-nu" aus einer Frageaussprachenzeichenfolge "na-shi-nu-ru" erzeugt.
Bei einer zweiten Aussprachenerweiterungsregel wird eine erweiterte Aussprachenzeichenfolge aus einer Frageaussprachenzeichenfolge erzeugt, indem ein schwacher Laut "na", "nu" oder "ru" nach einem zweiten oder folgenden Laut einer Frageaussprachenzeichenfolge eingefügt wird. Es werden zum Beispiel erweiterte Aussprachenzeichenfolgen "na-na-shi", "na-nu-shi", "na-ru-shi", "na-shi-na", "na-shi-nu" und "na-shi-ru" aus einer Frageaussprachenzeichenfolge "na-shi" erzeugt.
Bei einer dritten Aussprachenerweiterungsregel wird in Fällen, in denen ein schwacher Laut "na", "nu" oder "ru" in einer Frageaussprachenzeichenfolge vorhanden ist, eine erweiterte Aussprachenzeichenfolge aus der Frageaussprachenzeichenfolge erzeugt, indem der eine schwache Laut "na", "nu" oder "ru" der Frageaussprachenzeichenfolge durch einen anderen schwachen Laut "na", "nu" oder "ru" ersetzt wird. Es werden zum Beispiel erweiterte Aussprachenzeichenfolgen "nu-shi-nu" "ru-shi-nu", "na-shi-na" und "na-shi-ru" aus einer Frageaussprachenzeichenfolge "na-shi-nu" erzeugt.
Bei einer vierten Aussprachenerweiterungsregel wird eine erweiterte Aussprachenzeichenfolge aus einer Frageaussprachenzeichenfolge erzeugt, indem ein Laut der Frageaussprachenzeichenfolge durch einen in der gleichen Lautzeile der japanischen Silbenschrift plazierten anderen Laut ersetzt wird. Es werden zum Beispiel erweiterte Aussprachenzeichenfolgen "ni-shi", "nu-shi", "ne-shi", "no-shi", "na-sa", "na-su", "na-se" und "na-so" aus einer Frageaussprachenzeichenfolge "na-shi" erzeugt.
Bei einer fünften Aussprachenerweiterungsregel wird eine erweiterte Aussprachenzeichenfolge aus einer Frageaussprachenzeichenfolge mit fünf oder mehr Lauten erzeugt, indem ein Laut S1 der Frageaussprachenzeichenfolge durch einen in der gleichen Lautzeile der japanischen Silbenschrift plazierten anderen Laut ersetzt wird und ein anderer Laut S2 der Frageaussprachenzeichenfolge durch einen sich von dem schwachen Laut S2 unterscheidenden schwachen Laut "na", "nu" oder "ru" ersetzt wird, falls der Laut S2 einer der schwachen Laute "na", "nu" und "ru" ist. Es werden zum Beispiel erweiterte Aussprachenzeichenfolgen "pi-nu-so-ni-kku", "pi-ru-so-ni-kku", ---, "po-nu-so-ni-kku" und "po-ru-so-ni-kku" aus einer Frageaussprachenzeichenfolge "pa-na-so-ni-kku" erzeugt.
Bei dem vorstehend beschriebenen Aufbau der bekannten Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 101 wird ein Betrieb gemäß einem bekannten Verfahren zur Erweiterung ähnlicher Zeichenfolgen beschrieben.
In jeder der ersten, zweiten, dritten, vierten und fünften Erweiterungseinheit für erweiterte Aussprachenzeichenfolgen 102 bis 106 sind eine der in 4 gezeigten ersten, zweiten, dritten, vierten und fünften Aussprachenerweiterungsregeln und eine von Aussprachenzeichenfolgenerweiterungsprozeduren in einer Eins-zu-Eins-Entsprechung gespeichert.
Wenn eine Frageaussprachenzeichenfolge "na-sho-na-ru" mit vier Lauten in die Erweiterungseinheiten 102 bis 106 eingegeben wird, werden eine durch ein Löschen eines dritten Lauts "na" der Frageaussprachenzeichenfolge, der einer der schwachen Laute "na", "nu" und "ru" ist, erzeugte erweiterte Aussprachenzeichenfolge "na-sho-ru" und eine durch ein Löschen eines vierten Lauts "ru" der Frageaussprachenzeichenfolge, der einer der schwachen Laute ist, erzeugte andere erweiterte Aussprachenzeichenfolge "na-sho-na" gemäß der ersten Aussprachenerweiterungsregel von der Erweiterungseinheit 102 ausgegeben.
Ferner werden zwölf erweiterte Aussprachenzeichenfolgen "na-na-sho-na-ru", "na-nu-sho-na-ru", "na-ru-sho-na-ru", "na-sho-na-na-ru", "na-sho-nu-na-ru", "na-sho-ru-na-ru", "na-sho-na-na-ru" "na-sho-na-nu-ru", "na-sho-na-ru-ru", "na-sho-na-ru-na", "na-sho-na-ru-nu" und "na-sho-na-ru-ru", die jeweils durch ein Einfügen eines der schwachen Laute "na", "nu" und "ru" an der zweiten oder folgenden Lautposition der Frageaussprachenzeichenfolge gemäß der zweiten Aussprachenerweiterungsregel erzeugt werden, von der Erweiterungseinheit 103 ausgegeben.
Ferner werden sechs erweiterte Aussprachenzeichenfolgen "nu-sho-na-ru", "ru-sho-na-ru", "na-sho-nu-ru", "na-sho-ru-ru", "na-sho-na-na" und "na-sho-na-nu", die durch ein Ersetzen eines schwachen Lauts "na", "nu" oder "ru" der Frageaussprachenzeichenfolge durch einen anderen schwachen Laut "na", "nu" oder "ru" gemäß der dritten Aussprachenerweiterungsregel erzeugt werden, von der Erweiterungseinheit 104 ausgegeben.
Ferner werden vierzehn erweiterte Aussprachenzeichenfolgen "ni-sho-na-ru", "nu-sho-na-ru", "ne-sho-na-ru", "no-sho-na-ru", "na-sha-na-ru", "nu-shu-na-ru" "na-sho-ni-ru", "na-sho-nu-ru", na-sho-ne-ru, "na-sho-no-ru" "na-sho-na-ra", "na-sho-na-ri", "na-sho-na-re" und "na-sho-na-ro", die durch ein Ersetzen eines Lauts der Frageaussprachenzeichenfolge durch einen in der gleichen Zeile der japanischen Silbenschrift plazierten anderen Laut gemäß der vierten Aussprachenerweiterungsregel erzeugt werden, von der Erweiterungseinheit 105 ausgegeben.
In der Erweiterungseinheit 106 wird keine erweiterte Aussprachenzeichenfolge ausgegeben, da die Anzahl von Lauten in der Frageaussprachenzeichenfolge kleiner als fünf ist.
Danach werden die durch die Erweiterungseinheiten 102 bis 106 erzeugten vierunddreißig erweiterten Aussprachenzeichenfolgen durch die Sammlungs- und Neuanordnungseinheit für erweiterte Aussprachenzeichenfolgen 107 gesammelt und in der Reihenfolge der japanischen Silbenschrift neu angeordnet. Die neu angeordneten erweiterten Aussprachenzeichenfolgen
"na-sho-na", "na-sho-na-na", "na-sho-na-na-ru", "na-sho-na-na-ru", "na-sho-na-nu", "na-sho-na-nu-ru", "na-sho-na-ra", "na-sho-na-ri", "na-sho-na-ru-na", "na-sho-na-ru-nu", "na-sho-na-ru-ru", "na-sho-na-ru-ru", "na-sha-na-ru", "nu-shu-na-ru", "na-sho-na-re", "na-sho-na-ro", "na-sho-ni-ru", "na-sho-nu-na-ru", "na-sho-nu-ru", "na-sho-nu-ru", "na-sho-ne-ru", "na-sho-no-ru", "na-sho-ru", "na-sho-ru-ru", "na-sho-ru-na-ru", "na-na-sho-na-ru", "na-nu-sho-na-ru", na-ru-sho-na-ru" "ni-sho-na-ru", "nu-sho-na-ru", nu-sho-na-ru" "ne-sho-na-ru", "no-sho-na-ru" und "ru-sho-na-ru"
werden zu der Überlappende-Zeichenfolgen-Entfernungseinheit 108 ausgegeben.
In der Einheit 108 werden die durch die gleiche Aussprache ausgesprochenen erweiterten Aussprachenzeichenfolgen "na-sho-na-na-ru", die durch die gleiche Aussprache ausgesprochenen erweiterten Aussprachenzeichenfolgen "na-sho-na-ru-ru", die durch die gleiche Aussprache ausgesprochenen erweiterten Aussprachenzeichenfolgen "na-sho-nu-ru" und die durch die gleiche Aussprache ausgesprochenen erweiterten Aussprachenzeichenfolgen "nu-sho-na-ru" erfaßt, und eine der in der Aussprache überlappenden erweiterten Aussprachenzeichenfolgen wird gehalten, und die andere erweiterte Aussprachenzeichenfolge wird aufgegeben. Daher werden die dreißig erweiterten Aussprachenzeichenfolgen, bei denen keine überlappende Aussprachenzeichenfolge vorhanden ist, als zuletzt bestimmte erweiterte Aussprachenzeichenfolgen
"na-sho-na", "na-sho-na-na", "na-sho-na-na-ru", "na-sho-na-nu", "na-sho-na-nu-ru", "na-sho-na-ra", na-sho-na-ri", "na-sho-na-ru-na", "na-sho-na-ru-nu", "na-sho-na-ru-ru", "na-sha-na-ru", "nu-shu-na-ru", "na-sho-na-re", "na-sho-na-ro", "na-sho-ni-ru", "na-sho-nu-na-ru", "na-sho-nu-ru", "na-sho-ne-ru", "na-sho-no-ru", "na-sho-ru", "na-sho-ru-ru", "na-sho-ru-na-ru", "na-na-sho-na-ru", "na-nu-sho-na-ru", "na-ru-sho-na-ru", "ni-sho-na-ru", "nu-sho-na-ru", "ne-sho-na-ru", "no-sho-na-ru" und "ru-sho-na-ru"
ausgegeben.
Entsprechend werden die durch ein Verkörpern der Aussprachenähnlichkeitskriterien erhaltenen Aussprachenerweiterungsregeln in den Erweiterungseinheiten für erweiterte Aussprachenzeichenfolgen 102 bis 106 getrennt angewendet, und alle der Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen können zuverlässig als eine Vielzahl von ähnlichen Aussprachenzeichenfolgen in Zeichenfolgenform erhalten werden. Das heißt, in Fällen, in denen die Frageaussprachenzeichenfolge eine einer Anmeldung für eine Markeneintragung entsprechende angemeldete Marke angibt, können alle der angemeldeten Marke in der Aussprache ähnelnden Namen oder Zeichenfolgen gemäß den Aussprachenähnlichkeitskriterien erweitert und erhalten werden.
Als nächstes wird ein bekanntes Indizierungsverfahren unter Bezugnahme auf 5 bis 10 beschrieben.
5 zeigt ein Blockschaltbild einer bekannten Indizierungsvorrichtung, in der eine Markendatenbank gemäß einem bekannten Indizierungsverfahren indiziert wird.
Wie in 5 gezeigt besteht eine bekannte Indizierungsvorrichtung 111 aus
einer Markendatenbank 112 zum Speichern einer Vielzahl von Aussprachenzeichenfolgen, die eine Vielzahl von eingetragenen Marken angeben, und einer Vielzahl von fortlaufend numerierten Markennummern unter der Bedingung, daß die Markennummern und die eingetragenen Marken sich in einer Eins-zu-Eins-Entsprechung befinden, jede der eingetragenen Marken einer Aussprachenzeichenfolge oder mehreren Aussprachenzeichenfolgen entspricht und jede eine eingetragene Marke angebende Aussprachenzeichenfolge mit einer Markennummer der eingetragenen Marke verbunden ist, um eine Liste von Stücken von Markendaten zu erzeugen, die jeweils durch eine Kombination einer Aussprachenzeichenfolge und einer Markennummer angegeben sind,
einer Markendatenneuanordnungseinheit 113 zum Neuanordnen der Stücke von Markendaten, um die Aussprachenzeichenfolgen in der Reihenfolge der japanischen Silbenschrift neu anzuordnen,
einer Aussprachennummernhinzufügungseinheit 114 zum Ändern einer Vielzahl von durch die gleiche Aussprache ausgesprochenen Aussprachenzeichenfolgen zu einer Aussprachenzeichenfolge und Hinzufügen von fortlaufend numerierten Aussprachennummern zu den Aussprachenzeichenfolgen in einer Eins-zu-Eins-Entsprechung, um eine Liste von Stücken von Aussprachennummern-/Zeichendaten, die jeweils durch eine Kombination einer Aussprachennummer und einer Aussprachenzeichenfolge angegeben werden, und eine Liste von Stücken von Aussprachen-/Markennummerndaten, die jeweils durch eine Kombination einer Aussprachennummer, die einer Marke oder mehreren Marken entspricht, und einer Markennummer oder mehreren Markennummern, die den Marken entsprechen, angegeben werden, zu erzeugen,
einer Aussprachen-/Markennummerndatenspeichereinheit 115 zum Speichern der durch die Aussprachennummernhinzufügungseinheit 114 erzeugten Liste der Aussprachen-/Markennummerndaten,
einer TRIE-Indizierungseinheit 116 zum Erzeugen eines Aussprachenindex der durch die Hinzufügungseinheit 114 erzeugten Aussprachennummern-/Zeichendaten in einer Form einer Wiedergewinnungsstruktur (als TRIE bezeichnet), und
einer Aussprachenindexspeichereinheit 117 zum Speichern des Aussprachenindex der Aussprachennummern-/Zeichendaten.
Ein Beispiel für die in der Markendatenbank 112 gespeicherte Liste der Markendaten ist in 6 gezeigt. Ein Beispiel für die durch die Markendatenneuanordnungseinheit 113 neu angeordneten Markendaten ist in 7 gezeigt. Ein Beispiel für die durch die Aussprachennummernhinzufügungseinheit 114 erzeugte Liste der Aussprachennummern-/Zeichendaten ist in 8 gezeigt. Ein Beispiel für die durch die Aussprachennummernhinzufügungseinheit 114 erzeugte Liste der Aussprachen-/Markennummerndaten ist in 9 gezeigt. Ein Beispiel für den durch die TRIE-Indizierungseinheit 116 erzeugten Aussprachenindex der Aussprachennummern-/Zeichendaten ist in 10 gezeigt.
Bei dem vorstehend beschriebenen Aufbau wird ein Betrieb der bekannten Indizierungsvorrichtung 111, bei dem ein Aussprachenindex von Stücken von Aussprachennummern-/Zeichendaten für zwanzig Stücke von Markendaten erzeugt wird, beschrieben. Zwanzig in der Markendatenbank 112 gespeicherte Stücke von Markendaten werden durch die Markendatenneuanordnungseinheit 113 neu angeordnet, um zwanzig Aussprachenzeichenfolgen in der Reihenfolge der japanischen Silbenschrift neu anzuordnen. Daher werden zwanzig in 7 gezeigte Stücke von neu angeordneten Markendaten erhalten. Danach wird in der Aussprachennummernhinzufügungseinheit 114 eine Vielzahl von durch die gleiche Aussprache ausgesprochenen Aussprachenzeichenfolgen zu einer Aussprachenzeichenfolge geändert, und eine Vielzahl von fortlaufend numerierten Aussprachennummern wird den Aussprachenzeichenfolgen in einer Eins-zu-Eins-Entsprechung hinzugefügt, um in 8 gezeigte Stücke von Aussprachennummern-/Zeichendaten zu erzeugen. Ferner werden eine Markennummer oder mehrere Markennummern von einer Marke oder mehreren Marken, die gemäß einer durch eine Aussprachennummer angegebenen Aussprachenzeichenfolge ausgesprochen werden, herausgefunden, um eine Markennummer oder mehrere Markennummern, die jeder Aussprachennummer entsprechen, zu bestimmen, und eine in 9 gezeigte Liste von Stücken von Aussprachen-/Markennummerndaten wird erzeugt. Danach wird in der TRIE-Indizierungseinheit 116 ein Laut an jeder Position jeder der Aussprachenzeichenfolgen als ein Knoten betrachtet, jede Aussprachennummer einer Aussprachenzeichenfolge wird als ein Stück von Anhangsdaten an einen Knoten angehängt, der einem an einer letzten Position der Aussprachenzeichenfolge plazierten Laut entspricht, und ein Aussprachenindex der in 10 gezeigten Aussprachennummer-/Zeichendaten wird gemäß einem allgemein bekannten Verfahren erzeugt. In 10 gibt ein schwarzer Kreis einen Weiterleitungsknoten an, jeder von weißen Kreisen gibt einen einem Laut entsprechenden Knoten an, und jeder von schattierten Kreisen gibt einen Knoten mit einem Stück von Anhangsdaten an. Ein durch Klammern umgebener Wert gibt eine Aussprachennummer an.
Entsprechend können die Aussprachen-/Markennummerndaten und der Aussprachenindex der Aussprachennummern-/Zeichendaten, die für einen Wiedergewinnungsbetrieb für die Aussprachenzeichenfolgen verwendet werden, vorbereitet werden.
Als nächstes wird ein bekanntes Aussprachenzeichenfolgenwiedergewinnungsverfahren unter Bezugnahme auf 11 beschrieben.
11 zeigt ein Blockschaltbild einer bekannten Markenwiedergewinnungsvorrichtung, in der eine mit einer der gemäß dem bekannten Aussprachenzeichenfolgenerweiterungsverfahren erhaltenen erweiterten Aussprachenzeichenfolgen übereinstimmende Marke gemäß einem bekannten Wiedergewinnungsverfahren wiedergewonnen wird.
Wie in 11 gezeigt besteht eine bekannte Markenwiedergewinnungsvorrichtung 121 aus
der bekannten Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 101 zum Erzeugen einer Gruppe von einer Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen,
der Aussprachen-/Markennummerndatenspeichereinheit 115 zum Speichern einer Liste von Stücken von Aussprachen-/Markennummerndaten,
der Aussprachenindexspeichereinheit 117,
einer Markenwiedergewinnungseinheit 122 zum Ausführen eines Wiedergewinnungsbetriebs für jede der durch die Erweiterungsvorrichtung 101 erzeugten erweiterten Aussprachenzeichenfolgen durch ein Wiedergewinnen einer speziellen Aussprachennummer einer speziellen Aussprachenzeichenfolge, die eine Marke bezeichnet und mit jeder erweiterten Aussprachenzeichenfolge übereinstimmt, aus der Aussprachenindexspeichereinheit 117 und durch ein Wiedergewinnen einer speziellen Markennummer oder mehrerer spezieller Markennummern, die durch die spezielle Aussprachennummer angegeben werden, aus der Aussprachen-/Markennummerndatenspeichereinheit 115, und
einer Überlappende-Markennummern-Entfernungseinheit 123 zum Ändern einer Vielzahl von speziellen Markennummern mit jeweils dem gleichen Wert zu einer speziellen Markennummer mit dem Wert, um überlappende spezielle Markennummern zu entfernen, und Ausgeben einer Gruppe von speziellen Markennummern, in der keine überlappende Nummer vorhanden ist, als ein endgültiges Wiedergewinnungsergebnis.
Bei dem vorstehenden Aufbau wird ein Betrieb der bekannten Markenwiedergewinnungsvorrichtung 121 beschrieben.
Wenn die Frageaussprachenzeichenfolge "na-sho-na-ru" in die bekannte Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 101 eingegeben wird, werden die dreißig der Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen gemäß dem bekannten Verfahren zur Erweiterung ähnlicher Zeichenfolgen erzeugt. Danach wird für jede der erweiterten Aussprachenzeichenfolgen ein Wiedergewinnungsbetrieb durch die Markenwiedergewinnungseinheit 122 ausgeführt.
Im einzelnen wird eine spezielle Aussprachennummer einer mit einer erweiterten Aussprachenzeichenfolge "na-sho-na" übereinstimmenden speziellen Aussprachenzeichenfolge anfänglich aus der Aussprachenindexspeichereinheit 117 wiedergewonnen, indem eine Vielzahl von in 10 gezeigten Knoten verfolgt wird. Das heißt, ein einem obersten Laut "na" der Zeichenfolge "na-sho-na" entsprechender erster Knoten wird durch ein Passieren des Weiterleitungsknotens (oder schwarzen Knotens) herausgefunden, ein einem zweiten Laut "sho" der Zeichenfolge "na-sho-na" entsprechender zweiter Knoten wird durch ein Passieren des ersten Knotens herausgefunden, ein einem letzten Laut "na" der Zeichenfolge "na-sho-na" entsprechender dritter Knoten wird durch ein Passieren des zweiten Knotens herausgefunden, und eine an den letzten Laut "na" angehängte spezielle Aussprachennummer "8" wird wiedergewonnen. Danach werden wie in 9 gezeigt zwei durch die spezielle Aussprachennummer "8" angegebene spezielle Markennummern "1100359" und "1101022" aus der Aussprachen-/Markennummerndatenspeichereinheit 115 wiedergewonnen und werden in einer Liste von speziellen Markennummern registriert. Daher ist die Wiedergewinnungsoperation für die erweiterte Aussprachenzeichenfolge "na-sho-na" beendet. Ferner werden Wiedergewinnungsoperationen für die anderen neunundzwanzig erweiterten Aussprachenzeichenfolgen wiederholt ausgeführt, und wiedergewonnene spezielle Markennummern werden in der Liste von speziellen Markennummern registriert. In diesem Fall wird dann, wenn kein einem Laut einer erweiterten Aussprachenzeichenfolge entsprechender Knoten vorhanden ist oder keine spezielle Aussprachennummer an einen letzten Laut der erweiterten Aussprachenzeichenfolge angehängt ist, eine Wiedergewinnungsoperation für die erweiterte Aussprachenzeichenfolge gestoppt, keine spezielle Markennummer wird in der Liste von speziellen Markennummern registriert, und eine nächste Wiedergewinnungsoperation für eine nächste erweiterte Aussprachenzeichenfolge wird ausgeführt. Als ein Ergebnis der Wiedergewinnungsoperationen werden spezielle Aussprachennummern "8", "9", "7" und "14" der erweiterten Aussprachenzeichenfolgen "na-sho-na", "na-sho-na-ra", "na-sha-na-ru" und "ni-sho-na-ru" wiedergewonnen, und eine Liste von speziellen Markennummern "1100359", "1101022", "1101022", "1113044", "1101492" und "1106430" wird erhalten und zu der Überlappende-Markennummern-Entfernungseinheit 123 ausgegeben. Danach werden in der Entfernungseinheit 123 überlappende spezielle Markennummern "1101022" zu einer speziellen Markennummer "1101022" geändert, und eine Liste von speziellen Markennummern "1100359", "1101022", "1113044", "1101492" und "1106430" wird schließlich von der Entfernungseinheit 123 als ein Wiedergewinnungsergebnis ausgegeben.
Entsprechend können eine eingetragene Marke oder mehrere eingetragene Marken entsprechend einer speziellen Markennummer oder mehreren speziellen Markennummern, die durch die bekannte Aussprachenzeichenfolgenwiedergewinnungsvorrichtung 121 erhalten werden, als der Frageaussprachenzeichenfolge in der Aussprache ähnelnde Namen zuverlässig erhalten werden.
Da bei der bekannten Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 101 und dem Verfahren alle der Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen gesammelt und neu angeordnet werden, nachdem eine erweiterte Aussprachenzeichenfolge oder mehrere erweiterte Aussprachenzeichenfolgen in jeder der Erweiterungseinheiten 102 bis 106 durch ein getrenntes Anwenden jeder der durch ein Verkörpern der Aussprachenähnlichkeitskriterien erhaltenen Aussprachenerweiterungsregeln erhalten sind, sind jedoch in Fällen, in denen die Aussprachenähnlichkeitskriterien kompliziert sind, die Aussprachenerweiterungsregeln ebenfalls kompliziert, und es dauert lange, alle erweiterten Aussprachenzeichenfolgen zu erweitern. Ferner ist in Fällen, in denen eine große Anzahl von erweiterten Aussprachenzeichenfolgen erweitert wird, ein Speicher mit einer großen Kapazität zum Speichern aller erweiterten Aussprachenzeichen erforderlich, da die erweiterten Aussprachenzeichenfolgen in einer Zeichenfolgenform vorhanden sind.
Ferner ist es in Fällen, in denen der in der bekannten Indizierungsvorrichtung 111 und dem Verfahren erzeugte Aussprachenindex der Aussprachennummern-/Zeichendaten für eine Wiedergewinnungsoperation verwendet wird, unmöglich, eine Vielzahl von Aussprachennummern in einer für eine Vielzahl von erweiterten Aussprachenzeichenfolgen ausgeführten Wiedergewinnungsoperation wiederzugewinnen. Daher dauert es bei der bekannten Aussprachenzeichenfolgenwiedergewinnungsvorrichtung 121 und dem Verfahren in Fällen, in denen eine große Anzahl von erweiterten Aussprachenzeichenfolgen erweitert wird, lange, eine eingetragene Marke oder mehrere eingetragene Marken wiederzugewinnen, da es erforderlich ist, die Wiedergewinnungsoperation für jede der erweiterten Aussprachenzeichenfolgen auszuführen.
Wie es in ISBN4-8271-0334-8 (Seiten 122–125) der durch die Markenabteilung des Japanischen Patentamts bearbeiteten und durch die Patentvereinigung veröffentlichten "Markenprüfungsstandards" niedergeschrieben ist, sind insbesondere in Japan deswegen, weil die für die Prüfung von angemeldeten Marken tatsächlich verwendeten Markenähnlichkeitskriterien höchst kompliziert sind, auf den Markenähnlichkeitskriterien basierende Aussprachenerweiterungsregeln ebenfalls kompliziert. Daher kommt die Anzahl von einer Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen in den Bereich von Zigtausenden bis Zigmillionen. Ferner sind in Japan Millionen von eingetragenen oder anhängigen Marken vorhanden, und jede der eingetragenen oder anhängigen Marken wird durch eine von mehreren Aussprachenzeichenfolgen ausgedrückt. Daher ist eine Markendatenbank mit einer großen Kapazität zum Speichern der Aussprachenzeichenfolgen und der Markennummern, die den eingetragenen oder anhängigen Marken entsprechen, erforderlich. In diesem Fall dauert es zumindest ein Tausendstel einer Sekunde, eine Wiedergewinnungsoperation für eine erweiterte Aussprachenzeichenfolge unter Verwendung eines in der TRIE-Form erzeugten Aussprachenindex der Aussprachennummern-/Zeichendaten auszuführen. Daher befindet sich in Fällen, in denen eine ähnliche Marke oder mehrere ähnliche Marken, die einer angemeldeten Marke in der Aussprache ähneln, gemäß den für die Prüfung tatsächlich verwendeten Markenähnlichkeitskriterien aus einer tatsächlichen Markendatenbank wiedergewonnen werden, eine Wiedergewinnungszeit in dem Bereich von mehreren Minuten bis zu mehreren Stunden. Daher ist ein Nachteil dahingehend vorhanden, daß eine Wiedergewinnung einer ähnlichen Marke oder mehrerer ähnlicher Marken, die einer angemeldeten Marke in der Aussprache ähneln, nicht mit hoher Geschwindigkeit ausgeführt werden kann. Es ist zum Beispiel gewünscht, daß eine Wiedergewinnung einer ähnlichen Marke oder mehrerer ähnlicher Marken, die einer angemeldeten Marke in der Aussprache ähneln, in mehreren Sekunden ausgeführt wird.
Ferner ist es bei der bekannten Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 101 und dem Verfahren deswegen, weil jedes der Aussprachenähnlichkeitskriterien manuell in eine in einer Prozedurform programmierte Aussprachenerweiterungsregel transformiert wird und die Aussprachenerweiterungsregel in jeder der Erweiterungseinheiten 102 bis 106 gespeichert wird, dann, wenn die Aussprachenähnlichkeitskriterien verändert werden, erforderlich, eine in der Prozedurform programmierte veränderte Aussprachenerweiterungsregel aus jedem der veränderten Aussprachenähnlichkeitskriterien zu erzeugen und die veränderten Aussprachenerweiterungsregeln in einer Eins-zu-Eins-Entsprechung in den Erweiterungseinheiten 102 bis 106 zu speichern. Daher ist es beschwerlich, diese Anforderung zu erfüllen, und es ist ein Nachteil dahingehend vorhanden, daß eine Vielzahl von erweiterten Aussprachenzeichenfolgen nicht unmittelbar gemäß den veränderten Aussprachenähnlichkeitskriterien erweitert werden kann.
PATENT ABSTRACTS OF JAPAN, Jahrgang 018, Nr. 460 (P-1793), 26. August 1994 & JP-A-06 149791 (HITACHI LTD), 31. Mai 1994 offenbart eine Eingabevorrichtung für ein Dokument mit chinesischen Zeichen. Der Zweck dieser Vorrichtung besteht darin, ein richtiges KANJI (chinesisches Zeichen) unter Homonymen auszuwählen, indem automatisch ausgewählt wird, welches von in der Nähe verwendetem KANJI und häufigem KANJI für eine versuchsweise Bestimmung gemäß einem spezifischen Wort und einem Teil von Sprache verwendet wird. Die Vorrichtung liest in einer Aussprachenzeichenfolge und überprüft, ob Zusammentreffensinformationen in einer Speichertabelle gefunden werden. Wenn dies der Fall ist, dann wird eine Zusammentreffensanalyse ausgeführt. Daraufhin wird ein einzelner analytischer Prozeß zum Erfassen, ob eine Art von Teil von Sprache von KANJI mit keinem Homonym und ein Homonym vorhanden sind oder nicht, ausgeführt. Die Ergebnisse der vorstehend beschriebenen Analysen werden in einer KANJI-Folgenerzeugungstabelle gespeichert. Wenn der Teil von Sprache des KANJI mit der höchsten Verwendungshäufigkeit ein zum versuchsweisen Entscheiden bestimmter Teil von Sprache ist, wird das KANJI mit der höchsten Verwendungshäufigkeit versuchsweise bestimmt, aber wenn dem nicht so ist, wird in der Nähe genutztes KANJI versuchsweise bestimmt. Das KANJI und sein Teil von Sprache werden in der KANJI-Erzeugungstabelle gespeichert.
PATENT ABSTRACTS OF JAPAN, Jahrgang 017, Nr. 405 (P-1581), 28. Juli 1993 & JP-A-05 073536 (BROTHER IND LTD), 26. März 1993 offenbart eine Wandlungsvorrichtung für KANA (japanische Silbenschrift) – KANJI (chinesisches Zeichen), die zum Verbessern der Wandlungseffizienz entworfen ist, um die Arbeit für eine Regelverzeichniserzeugung zu sparen und die Speicherkapazität eines Regelverzeichnisses herabzusetzen. Eine KANA-Aussprachenzeichenfolge wird eingegeben und in KANJI gewandelt, indem auf ein grundlegendes Verzeichnis Bezug genommen wird, das Aussprachen von Worten entsprechende Zeichen enthält. Zu einer Regel passende Zeichen werden wiedergewonnen, indem auf ein Regeln mit Mustern von mehreren Wortfolgen und ihre Neuschreibinformationen enthaltendes Regelverzeichnis und ein Neuschreibinformationen enthaltendes Konjugationsverzeichnis, wobei Konjugationen in einem zusammengesetzt werden, Bezug genommen wird. Die Inhalte des entsprechenden KANA-KANJI-Wandlungsergebnisses werden gemäß dem Regelverzeichnis neu geschrieben, wenn die passende Regel wiedergewonnen wird.
Ein Ziel der vorliegenden Erfindung besteht darin, unter angemessener Berücksichtigung der Nachteile eines bekannten Verfahrens und einer bekannten Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen ein Verfahren und eine Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen bereitzustellen, bei denen eine große Anzahl von einer Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen im wesentlichen erhalten werden, indem die Frageaussprachenzeichenfolge selbst dann in einer kurzen Zeit ohne eine Beschwerlichkeit gemäß einer Vielzahl von Aussprachenähnlichkeitskriterien erweitert wird, wenn ein Aussprachenähnlichkeitskriterium oder mehrere Aussprachenähnlichkeitskriterien verändert werden, und alle die erweiterten Aussprachenzeichenfolgen im wesentlichen in einem Speicher mit einer geringen Kapazität gespeichert werden und bei denen eine Vielzahl von jeweils mit einer erweiterten Aussprachenzeichenfolge einer großen Anzahl von erweiterten Aussprachenzeichenfolgen übereinstimmenden registrierten Zeichenfolgen im wesentlichen mit hoher Geschwindigkeit aus einer Datenbank wiedergewonnen wird.
Dieses Ziel wird durch die Bereitstellung eines Verfahrens und einer Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen erreicht.
Da das beanspruchte Verfahren und die beanspruchte Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen einer Frageaussprachenzeichenfolge in der Aussprache ähnelnde erweiterte Aussprachenzeichenfolgen nicht direkt ausgeben, sondern einen Satz von Ableitungselementen und einen finiten Zustandsautomaten ausgeben, können selbst dann, wenn Millionen von erweiterten Aussprachenzeichenfolgen vorhanden sind, die erweiterten Aussprachenzeichenfolgen im wesentlichen in einer kurzen Zeit erhalten werden, ein Ausgabevolumen kann beträchtlich verringert werden, und die erweiterten Aussprachenzeichenfolgen können im wesentlichen in einem Speicher mit einer geringen Kapazität gespeichert werden.
Da alle Aussprachenerweiterungsregeln nicht getrennt angewendet werden, sondern bei der Erzeugung des finiten Zustandsautomaten in einer Gruppe angewendet werden, können ferner selbst dann, wenn Dutzende von Aussprachenerweiterungsregeln angewendet werden und Millionen von ähnlichen Aussprachenzeichenfolgen aus der Frageaussprachenzeichenfolge erzeugt werden, die Ableitungselemente und der finite Zustandsautomat, in dem Dutzende von Aussprachenerweiterungsregeln in einer Gruppe angewendet werden, in einer kurzen Zeit erhalten werden.
Da jede Aussprachenerweiterungsregel einer Vielzahl von Aussprachenerweiterungsregeln einfach durch eine Kombination eines anwendbaren Bereichs und eines regulären Ausdrucks angegeben werden kann, kann ferner selbst dann, wenn ein Aussprachenähnlichkeitskriterium oder mehrere Aussprachenähnlichkeitskriterien verändert werden, eine Vielzahl von den veränderten Aussprachenähnlichkeitskriterien entsprechenden Aussprachenerweiterungsregeln unverzüglich vorbereitet werden, ohne Programme der Aussprachenerweiterungsregeln zu ändern, und die Veränderung der Aussprachenähnlichkeitskriterien kann ohne eine Beschwerlichkeit bei dem Satz von Ableitungselementen und dem finiten Zustandsautomaten widergespiegelt werden.
Da unter Verwendung der Aussprachenähnlichkeitskriterien und der Frageaussprachenzeichenfolge der Satz von Ableitungselementen und der finite Zustandsautomat anstelle einer großen Anzahl von der Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen vorbereitet werden, können ferner eine bestimmte Zeichenfolge oder mehrere bestimmte Zeichenfolgen, die jeweils die Aussprachenähnlichkeitskriterien erfüllen und der Frageaussprachenzeichenfolge in der Aussprache ähneln, mit hoher Geschwindigkeit erzeugt werden, und eine registrierte Zeichenfolge oder mehrere registrierte Zeichenfolgen, die jeweils mit einer der bestimmten Zeichenfolgen übereinstimmen und in einer Datenbank gespeichert sind, können aus der Datenbank wiedergewonnen werden.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die Ziele, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung zusammen mit den beigefügten Zeichnungen ersichtlich, in denen:
1 ein Blockschaltbild einer bekannten Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen, in der eine Vielzahl von einer Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen gemäß einem bekannten Verfahren zur Erweiterung ähnlicher Zeichenfolgen expandiert wird, zeigt;
2 eine japanische Silbenschrift zeigt;
3 eine Vielzahl von für das bekannte Verfahren und die bekannte Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen und das Verfahren und die Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen gemäß der vorliegenden Erfindung angewendeten Aussprachenähnlichkeitskriterien zeigt;
4 fünf aus den Aussprachenähnlichkeitskriterien erhaltene Aussprachenerweiterungsregeln zeigt;
5 ein Blockschaltbild einer bekannten Indizierungsvorrichtung, in der eine Markendatenbank gemäß einem bekannten Indizierungsverfahren indiziert wird, zeigt;
6 eine Liste von Stücken von in einer in 5 gezeigten Markendatenbank gespeicherten Markendaten zeigt;
7 eine Liste von Stücken von durch eine in 5 gezeigte Markendatenneuanordnungseinheit neu angeordneten Markendaten zeigt;
8 eine durch eine in 5 gezeigte Aussprachennummerhinzufügungseinheit erzeugte Liste von Stücken von Aussprachennummern-/Zeichendaten zeigt;
9 eine durch eine in 5 gezeigte Aussprachennummernhinzufügungseinheit erzeugte Liste von Stücken von Aussprachen-/Markennummerndaten zeigt;
10 einen durch eine in 5 gezeigte TRIE-Indizierungseinheit erzeugten Aussprachenindex von Stücken von Aussprachennummern-/Zeichendaten zeigt;
11 ein Blockschaltbild einer bekannten Wiedergewinnungsvorrichtung, in der eine mit einer der gemäß dem bekannten Aussprachenzeichenfolgenerweiterungsverfahren erhaltenen erweiterten Aussprachenzeichenfolgen übereinstimmende Marke gemäß einem bekannten Wiedergewinnungsverfahren wiedergewonnen wird, zeigt;
12 ein Blockschaltbild einer Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen, in der ein Verfahren zur Erweiterung ähnlicher Zeichenfolgen ausgeführt wird, gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
13A, 13B und 13C eine aus einer Tabelle gleicher Laute, einer Tabelle schwacher Laute, einer Tabelle schwacher verschiedener Laute und einer Tabelle von Lauten der gleichen Zeile bestehende Gruppe von Tabellen ähnlicher Laute zeigen;
14 ein Verfahren zur Erzeugung einer aus einem regulären Ausdruck und einem anwendbaren Bereich der Anzahl von Lauten in einer Frageaussprachenzeichenfolge bestehenden Aussprachenerweiterungsregel aus einem Aussprachenähnlichkeitskriterium zeigt;
15 ein Blockschaltbild einer Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen, in der ein Verfahren zur Erweiterung ähnlicher Zeichenfolgen ausgeführt wird, gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
16A und 16B fünf aus vier in 3 gezeigten Aussprachenähnlichkeitskriterien erzeugte Aussprachenerweiterungsregeln zeigen;
17 die Tabellen ähnlicher Laute, die Definition der Ableitungsbeschränkungen und fünf jeweils aus einem regulären Ausdruck und einem anwendbaren Bereich der Anzahl von Lauten bestehende Aussprachenerweiterungsregeln, die in einer in 15 gezeigten Aussprachenerweiterungsregeldatei abgespeichert sind, zeigt;
18 eine Tabelle von Ableitungselementen für eine Frageaussprachenzeichenfolge "na-sho-na-ru" zeigt;
19 einen Satz von jeweils aus einem regulären Ausdruck und der für jede von aus einer Frageaussprachenzeichenfolge abgeleiteten erweiterten Aussprachenzeichenfolgen erlaubten Anzahl von Lauten bestehenden Regulärer-Ausdruck-Elementen zeigt;
20 ein Flußdiagramm eines in einer in 15 gezeigten Ableitungselementerzeugungseinheit ausgeführten Betriebs zeigt;
21 einen in einer in 15 gezeigten Automatenerzeugungseinheit erzeugten deterministischen finiten Zustandsautomaten zeigt;
22 eine zu dem in 21 gezeigten deterministischen finiten Zustandsautomaten äquivalente Zustandsübergangstabelle zeigt;
23 ein Blockschaltbild einer Zeichenfolgenwiedergewinnungsvorrichtung (oder Namenswiedergewinnungsvorrichtung), in der ein Name oder mehrere Namen, die mit einer ähnlichen Aussprachenzeichenfolge oder mehreren ähnlichen Aussprachenzeichenfolgen, die durch die in 15 gezeigte Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen indirekt angegeben werden, übereinstimmen, wiedergewonnen werden, gemäß einem zweiten Ausführungsbeispiel der vorliegenden Erfindung zeigt; und
24 ein Flußdiagramm eines in der in 23 gezeigten Zeichenfolgenwiedergewinnungsvorrichtung ausgeführten Betriebs zeigt.
AUSFÜHRLICHE BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
Bevorzugte Ausführungsbeispiele der Vorrichtung und des Verfahrens zur Erweiterung ähnlicher Zeichenfolgen sowie der Zeichenfolgenwiedergewinnungsvorrichtung und des Zeichenfolgenwiedergewinnungsverfahrens gemäß der Erfindung werden unter Bezugnahme auf die Zeichnungen beschrieben. Bei den folgenden Ausführungsbeispielen wird eine ähnliche Aussprachenzeichenfolge als eine einer Frageaussprachenzeichenfolge in der Aussprache ähnelnde erweiterte Aussprachenzeichenfolge bezeichnet.
Ein Ableitungsmodell zum Ableiten eines in einer einer Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolge enthaltenen abgeleiteten Lauts aus einem angemerkten (remarked) Laut der Frageaussprachenzeichenfolge, ein Ausdrucksverfahren zum Ausdrücken eines zum Erhalten des abgeleiteten Lauts erforderliche Schritte angebenden Ableitungstyps und ein Ausdruck von Aussprachenerweiterungsregeln werden zum Erleichtern des Verständnisses von Ausführungsbeispielen vor der Beschreibung der Ausführungsbeispiele gemäß der Erfindung anfänglich beschrieben.
In einem Ableitungsmodell gemäß der Erfindung wird jeder abgeleitete Laut einer erweiterten Aussprachenzeichenfolge aus einem angemerkten Laut der Frageaussprachenzeichenfolge abgeleitet. Das Ableitungsmodell wird gemäß einem sich auf eine Ableitungsbeschränkung beziehenden ersten Schritt "Y", einem sich auf eine Änderung eines angemerkten Lauts zu einem abgeleiteten Laut beziehenden zweiten Schritt "XX" und einem sich auf eine Änderung einer Position des angemerkten Lauts zu einer Position des abgeleiteten Lauts beziehenden dritten Schritt "ZZ" ausgedrückt wie folgt.
"Y"; ein angemerkter Laut einer Frageaussprachenzeichenfolge und ein anderer Laut oder andere Laute der Frageaussprachenzeichenfolge, die vorne oder hinten in der Frageaussprachenzeichenfolge plaziert sind, erfüllen eine Ableitungsbeschränkung.
"XX"; ein Laut oder mehrere Laute, die sich auf den angemerkten Laut beziehen, werden unter Verwendung des angemerkten Lauts als einen Schlüssellaut in einer Tabelle ähnlicher Laute (einer Tabelle gleicher Laute s0, einer Tabelle schwacher Laute j0, einer schwach verschiedenen Tabelle j1 oder einer Tabelle von Lauten der gleichen Zeile d0) nachgeschlagen, und der angemerkte Laut wird zu einem der als ein abgeleiteter Laut nachgeschlagenen Laute geändert.
"ZZ"; der abgeleitete Laut wird an einer gegenüber einer Position des angemerkten Lauts um ZZ Laute verschobenen Position in einer erweiterten Aussprachenzeichenfolge plaziert oder wird an der gleichen Position in einer erweiterten Aussprachenzeichenfolge wie der des angemerkten Lauts plaziert.
Die durch "Y" angegebene Ableitungsbeschränkung ist in Fällen erfüllt, in denen die folgenden Punkte (i), (ii) und (iii) erfüllt sind.

(i); ein erster spezieller Laut der Frageaussprachenzeichenfolge ist "AA" Laute von dem angemerkten Laut beabstandet.
(ii); ein Laut oder mehrere Laute, die sich auf den ersten speziellen Laut beziehen, werden unter Verwendung des ersten speziellen Lauts als einen Schlüssellaut in der Tabelle ähnlicher Laute "VV" nachgeschlagen.
(iii); ein "BB" Laute von dem angemerkten Laut beabstandeter zweiter spezieller Laut der Frageaussprachenzeichenfolge stimmt mit einem der nachgeschlagenen Laute überein.

Die Ableitungsbeschränkung wird durch ein Symbol "AAVVBB" angegeben. In diesem Fall werden die Symbole "AA" und "BB" jeweils durch eine ganze Zahl angegeben. In Fällen, in denen der erste oder zweite spezielle Laut vor dem angemerkten Laut plaziert ist, wird das Symbol durch einen negativen Wert angegeben. In Fällen, in denen der erste oder zweite spezielle Laut nach dem angemerkten Laut plaziert ist, wird das Symbol durch einen positiven Wert angegeben. Das Symbol "VV" wird durch einen Namen der Tabellen ähnlicher Laute angegeben.
Ein Ausdrucksverfahren zum Ausdrücken eines Ableitungstyps wird beschrieben.
Ein zum Erhalten des abgeleiteten Lauts erforderliche Schritte "Y", "XX" und "ZZ" angebender Ableitungstyp wird durch ein Symbol <YXXZZ> angegeben. In diesem Fall wird das Symbol "XX" durch einen Namen der Tabelle ähnlicher Laute angegeben. Das Symbol "Y" wird durch einen Buchstaben wie beispielsweise "0", "J" oder dergleichen angegeben. Das die Anzahl von verschobenen Lauten angebende Symbol "ZZ" wird in der gleichen Art und Weise wie die Symbole "AA" und "BB" durch eine ganze Zahl ausgedrückt.
Als ein Beispiel wie in 12 gezeigt wird in Fällen, in denen eine erweiterte Aussprachenzeichenfolge "na-sho-{–}-no" aus einer Frageaussprachenzeichenfolge "na-sho-na-ru" abgeleitet wird, die Ableitung eines an einer vierten Position der erweiterten Aussprachenzeichenfolge "na-sho-{–}-no" plazierten abgeleiteten Lauts "no" gemäß dem Ableitungsmodell unter Bezugnahme auf 13A, 13B und 13C beschrieben. In diesem Fall fungiert ein Laut "{–}" zum Ändern eines in einem vorhergehenden Laut "sho" enthaltenen kurzen Vokals zu einem in der Kombination der zwei Laute "sho" und "{–}" enthaltenen langen Vokal.
13A, 13B und 13C zeigen eine aus einer Tabelle gleicher Laute, einer Tabelle schwacher Laute, einer Tabelle schwacher verschiedener Laute und einer Tabelle von Lauten der gleichen Zeile bestehende Gruppe von Tabellen ähnlicher Laute.
In Fällen, in denen ein an einer dritten Position der Frageaussprachenzeichenfolge "na-sho-na-ru" plazierter Laut "na" als ein angemerkter Laut eingeführt wird, wird die Ableitungsbeschränkung "Y" erfüllt wie folgt.
"Y"; ein dem angemerkten Laut "na" folgender zweiter spezieller Laut "ru" der Frageaussprachenzeichenfolge stimmt mit einem von unter Verwendung des angemerkten Lauts "na" als einen Schlüssellaut in einer in 13A gezeigten Tabelle schwacher Laute j0 nachgeschlagenen Lauten "na", "nu" und "ru" überein.
Der zweite Schritt "XX" wird erfüllt wie folgt.
"XX"; der abgeleitete Laut "no" stimmt mit einem von unter Verwendung des angemerkten Lauts "na" als einen Schlüssellaut in einer in 13A gezeigten Tabelle von Lauten der gleichen Zeile d0 nachgeschlagenen Lauten "ni", "nu", "ne" und "no" überein.
Der dritte Schritt "ZZ" wird erfüllt wie folgt.
"ZZ"; der abgeleitete Laut "no" ist an einer einen Laut nach einer dritten Position des angemerkten Lauts "na" beabstandeten Position der erweiterten Aussprachenzeichenfolge plaziert.
Daher wird die Ableitungsbeschränkung "Y" durch J = + 0j0 + 1 angegeben. Das heißt, da der angemerkte Laut "na" mit einem ersten speziellen Laut übereinstimmt, ist "AA" gleich +0. Da der zweite spezielle Laut "ru" dem angemerkten Laut "na" folgt, ist "BB" gleich +1. Da auf die Tabelle schwacher Laute j0 Bezug genommen wird, wird "VV" durch j0 angegeben. Ferner wird ein Ableitungstyp für den aus dem angemerkten Laut "na" abgeleiteten Laut "no" gemäß dem Ausdrucksverfahren durch <d0J + 1> ausgedrückt. Das heißt, da auf die Tabelle von Lauten der gleichen Zeile d0 Bezug genommen wird, wird "XX" durch d0 angegeben. Da der abgeleitete Laut "no" einen Laut nach dem angemerkten Laut "na" beabstandet ist, ist "ZZ" gleich +1.
Ein Modell für eine Vielzahl von Aussprachenerweiterungsregeln wird unter Verwendung des Ableitungsmodells ausgedrückt wie folgt.

(1) Eine Vielzahl von Ableitungstypen wird an jeden Laut einer erweiterten Aussprachenzeichenfolge angehängt. Mit anderen Worten wird jeder Laut einer erweiterten Aussprachenzeichenfolge gemäß einem der Ableitungstypen aus einem angemerkten Laut einer Frageaussprachenzeichenfolge abgeleitet.
(2) Für jeden der Laute der erweiterten Aussprachenzeichenfolge wird ein spezieller Ableitungstyp aus einer Vielzahl von Ableitungstypen, die an einen Laut einer erweiterten Aussprachenzeichenfolge angehängt sind und einer Vielzahl von Aussprachenerweiterungsregeln entsprechen, beliebig ausgewählt, eine Vielzahl von den Lauten der erweiterten Aussprachenzeichenfolge entsprechenden speziellen Ableitungstypen wird in der Reihenfolge der Entsprechung mit den in der Reihenfolge angeordneten Lauten angeordnet, um eine Folge von speziellen Ableitungstypen zu bilden, und eine Gruppe der Aussprachenerweiterungsregeln wird als ein Satz einer Vielzahl von Folgen von speziellen Ableitungstypen ausgedrückt.
(3) Der Satz von Folgen von speziellen Ableitungstypen wird der Bequemlichkeit halber durch eine Kombination eines anwendbaren Bereichs der in der Frageaussprachenzeichenfolge vorhandenen Anzahl von Lauten und eines Folgen von speziellen Ableitungstypen angebenden regulären Ausdrucks ausgedrückt.

14 zeigt ein Verfahren zur Erzeugung einer aus einem regulären Ausdruck und einem anwendbaren Bereich der Anzahl von Lauten in einer Frageaussprachenzeichenfolge bestehenden Aussprachenerweiterungsregel aus einem Aussprachenähnlichkeitskriterium.
In dem obersten Abschnitt von 14 sind Inhalte eines Satzes einer Vielzahl von Folgen von speziellen Ableitungstypen als ein Beispiel beschrieben. In Fällen, in denen eine den Inhalten entsprechende Vielzahl von Folgen von speziellen Ableitungstypen tatsächlich verkörpert ist, sind die Folgen von speziellen Ableitungstypen in dem zweiten Abschnitt von dem obersten Abschnitt aus gezeigt. In diesem Fall gibt ein Ableitungstyp <s0O + 0> an, daß ein mit einem angemerkten Laut einer Frageaussprachenzeichenfolge übereinstimmender Laut ohne eine Ableitungsbeschränkung an der gleichen Position wie der des angemerkten Lauts als ein abgeleiteter Laut einer erweiterten Aussprachenzeichenfolge abgeleitet wird. Ein Ableitungstyp <d0O + 0> gibt an, daß ein zu der gleichen Zeile wie der eines angemerkten Lauts einer Frageaussprachenzeichenfolge gehörender Laut ohne eine Ableitungsbeschränkung an der gleichen Position wie der des angemerkten Lauts als ein abgeleiteter Laut einer erweiterten Aussprachenzeichenfolge abgeleitet wird.
Die Folgen von speziellen Ableitungstypen werden durch eine durch eine Kombination eines anwendbaren Bereichs der Anzahl von Lauten in einer Frageaussprachenzeichenfolge und eines regulären Ausdrucks <s0O + 0> <s0O + 0>* <d0O + 0> <s0O + 0>* angegebene Aussprachenerweiterungsregel ausgedrückt, wie es in dem dritten Abschnitt von dem obersten Abschnitt gemäß 14 aus gezeigt ist. Die Interpretation des anwendbaren Bereichs und des regulären Ausdrucks ist in dem untersten Abschnitt gemäß 14 beschrieben. Das heißt, ein oberster Laut einer erweiterten Aussprachenzeichenfolge wird gemäß dem Ableitungstyp <s0O + 0> abgeleitet, null oder mehr zweite Laute der erweiterten Aussprachenzeichenfolge werden gemäß dem Ableitungstyp <s0O + 0>, ein dritter Laut der erweiterten Aussprachenzeichenfolge wird gemäß dem Ableitungstyp <d0O + 0> abgeleitet, null oder mehr letzte Laute der erweiterten Aussprachenzeichenfolge werden gemäß dem Ableitungstyp <s0O + 0> abgeleitet, und die Anzahl von obersten, zweiten, dritten und letzten Lauten befindet sich in dem anwendbaren Bereich von 2 bis 10. In diesem Fall wird der reguläre Ausdruck umfassend verwendet, um ein Muster von Zeichenfolgen bei einer Wiedergewinnungsoperation auszudrücken, für die ein Zeichenfolgenwiedergewinnungswerkzeug wie beispielsweise eine als GREP bezeichnete Software oder dergleichen in einem Personalcomputer oder einer Workstation verwendet wird. Bei diesem Ausführungsbeispiel wird der reguläre Ausdruck zum Ausdrücken eines Musters von Folgen von speziellen Ableitungstypen verwendet. Da der reguläre Ausdruck in verschiedenen Schriften (Hopcroft, J. E., Ullman, J. D.: "Formal Languages and Their Relations to Automata", Addison-Wesley, 1969, und Salomaa, A.: "Formal Languages", Academic Press, 1973) im einzelnen beschrieben ist, wird die Beschreibung des regulären Ausdrucks weggelassen.
15 zeigt ein Blockschaltbild einer Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen, in der ein Verfahren zur Erweiterung ähnlicher Zeichenfolgen ausgeführt wird, gemäß einem ersten Ausführungsbeispiel der Erfindung.
Wie in 15 gezeigt umfaßt eine Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 11:
eine Frageaussprachenzeichenfolgenspeichereinheit 12 zum vorübergehenden Speichern einer durch einen Benutzer eingegebenen Frageaussprachenzeichenfolge;
eine Lautanzahlberechnungseinheit 13 zum Berechnen der Anzahl von Lauten in der in der Speichereinheit 12 gespeicherten Frageaussprachenzeichenfolge;
eine Aussprachenerweiterungsregeldatei 14 zum Abspeichern einer Vielzahl von Aussprachenerweiterungsregeln, einer Tabelle ähnlicher Laute oder mehrerer Tabellen ähnlicher Laute und der Definition einer Ableitungsbeschränkung oder mehrerer Ableitungsbeschränkungen, die gemäß einer Vielzahl von Aussprachenähnlichkeitskriterien vorbereitet werden, wobei jede Aussprachenerweiterungsregel aus einer Kombination eines regulären Ausdrucks und eines anwendbaren Bereichs der Anzahl von Lauten in einer Frageaussprachenzeichenfolge besteht;
eine Aussprachenerweiterungsregelleseeinheit 15 zum Lesen der Aussprachenerweiterungsregeln, der Tabellen ähnlicher Laute und der Definition der Ableitungsbeschränkungen, die in der Datei 14 abgespeichert sind;
eine Tabelle-ähnlicher-Laute-Speichereinheit 16 zum Speichern der durch die Leseeinheit 15 gelesenen Tabellen ähnlicher Laute;
eine Regulärer-Ausdruck-Speichereinheit 17 zum Speichern der jeweils aus einem regulären Ausdruck und einem anwendbaren Bereich der Anzahl von Lauten bestehenden Aussprachenerweiterungsregeln, die durch die Leseeinheit 15 gelesen werden;
eine Ableitungselementerzeugungseinheit 18 zum Erzeugen einer Tabelle von jeweils aus einer Lautposition in einer der in der Speichereinheit 12 gespeicherten Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolge, einer Liste von einem abgeleiteten Laut oder mehreren abgeleiteten Lauten, deren Plazierung an der gleichen Lautposition jeweils erwartet wird, und einem Ableitungstyp oder mehreren Ableitungstypen, die an jeden der abgeleiteten Laute angehängt sind, bestehenden Ableitungselementen, Erzeugen eines Satzes von jeweils aus der Anzahl von Lauten in einer erweiterten Aussprachenzeichenfolge und einem von der Speichereinheit 17 übertragenen regulären Ausdruck bestehenden Regulärer-Ausdruck-Elementen und Ausgeben der Tabelle von Ableitungselementen;
eine Automatenerzeugungseinheit 19 zum Erzeugen eines finiten Zustandsautomaten, in dem jeder der Ableitungstypen der durch die Erzeugungseinheit 18 erzeugten Ableitungselemente als eine Übergangsbedingung verwendet wird, aus einem Satz von Kombinationen von regulären Ausdrücken und anwendbaren Bereichen der Anzahl von Lauten, die in der Speichereinheit 17 gespeichert sind und durch die Erzeugungseinheit 18 ausgewählt werden, und Ausgeben einer Liste von Zustandsübergängen für den finiten Zustandsautomaten;
eine Ableitungstyperzeugungseinheit 20 zum Erzeugen einer Vielzahl von Ableitungstypen, die jeweils in der Erzeugungseinheit 18 wahrscheinlich zum Ableiten eines an einer Position einer erweiterten Aussprachenzeichenfolge plazierten Lauts aus einem angemerkten Laut einer beliebigen Frageaussprachenzeichenfolge verwendet werden;
eine Ableitungstyplistennummernerzeugungseinheit 21 zum Erzeugen einer Vielzahl von Ableitungstyplistennummern zum Angeben einer Ableitungstypliste oder mehrerer Ableitungstyplisten, die jeweils aus der gleichen Gruppe von Ableitungstypen in der Tabelle von Ableitungselementen bestehen, durch die gleiche Ableitungstyplistennummer; und
eine Klassifizierungsnummernregistrierungseinheit 22 zum Registrieren einer Klassifizierungsnummer oder mehrerer Klassifizierungsnummern, die einem regulären Ausdruck oder mehreren regulären Ausdrücken, die in der Speichereinheit 17 gespeichert sind, entsprechen.
In der Klassifizierungsnummernspeichereinheit 22 wird eine Vielzahl von Klassifizierungsnummern in einer Listenform registriert. Ferner werden eine Klassifizierungsnummer oder mehrere Klassifizierungsnummern für jede der in der Datei 14 abgespeicherten Aussprachenerweiterungsregeln zugeordnet. Daher werden in Fällen, in denen eine Klassifizierungsnummer einer Aussprachenerweiterungsregel in der Registrierungseinheit 22 registriert ist, ein regulärer Ausdruck oder mehrere reguläre Ausdrücke, die der Aussprachenerweiterungsregel entsprechen, von der Speichereinheit 17 zu der Erzeugungseinheit 18 übertragen, und die regulären Ausdrücke werden in der Erzeugungseinheit 18 verwendet.
In der Ableitungstyperzeugungseinheit 20 werden die Ableitungstypen in einer tabellarischen Form erzeugt.
Bei dem vorstehend beschriebenen Aufbau wird ein Betrieb der Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 11 beschrieben.
Eine Vielzahl von in der Aussprachenerweiterungsregeldatei 14 abzuspeichernden Aussprachenerweiterungsregeln wird gemäß Aussprachenähnlichkeitskriterien im voraus vorbereitet. Es werden zum Beispiel fünf in 16A und 16B gezeigte Aussprachenerweiterungsregeln R1 bis R5 aus vier in 3 gezeigten Aussprachenähnlichkeitskriterien S1 bis S4 erzeugt. Das heißt, eine Interpretation des Aussprachenähnlichkeitskriteriums S1 besteht darin, daß eine erweiterte Aussprachenzeichenfolge durch ein Löschen eines Lauts einer Frageaussprachenzeichenfolge mit zwei oder mehr Lauten in Fällen, in denen der Laut in der Tabelle schwacher Laute j0 aufgelistet ist und an einer anderen Position der Frageaussprachenzeichenfolge als ihrer obersten Position plaziert ist, erzeugt wird. Daher wird eine aus einem anwendbaren Bereich der Anzahl von Lauten in einer Frageaussprachenzeichenfolge (von 2 bis 10) und einem regulären Ausdruck <s0O + 0>* <s0J + 0> <s0O – 1>* bestehende Aussprachenerweiterungsregel R1 manuell aus dem Aussprachenähnlichkeitskriterium S1 erhalten.
Im einzelnen gibt ein Ableitungstyp <s0O + 0> an, daß ein mit einem angemerkten Laut einer Frageaussprachenzeichenfolge übereinstimmender Laut ohne eine Ableitungsbeschränkung an der gleichen Position wie der des angemerkten Lauts als ein abgeleiteter Laut einer erweiterten Aussprachenzeichenfolge abgeleitet wird, ein Ableitungstyp <s0J + 0> gibt an, daß ein mit einem angemerkten Laut einer Frageaussprachenzeichenfolge übereinstimmender Laut unter der Bedingung, daß ein an einer Position neben der des angemerkten Lauts in der Frageaussprachenzeichenfolge plazierter Laut in der Tabelle schwacher Laute j0 aufgelistet ist, an der gleichen Position wie der des angemerkten Lauts als ein abgeleiteter Laut einer erweiterten Aussprachenzeichenfolge abgeleitet wird, und ein Ableitungstyp <s0O – 1> gibt an, daß ein mit einem angemerkten Laut einer Frageaussprachenzeichenfolge übereinstimmender Laut ohne eine Ableitungsbeschränkung an einer einer Position des angemerkten Lauts um eins vorausgehenden Position als ein abgeleiteter Laut einer erweiterten Aussprachenzeichenfolge abgeleitet wird. Daher bezeichnet es eine Folge von Ableitungstypen <s0J + 0> <s0O – 1>, das eine erweiterte Aussprachenzeichenfolge, in der ein oberster Laut der gleiche wie ein oberster Laut der Frageaussprachenzeichenfolge ist und ein zweiter Laut der gleiche wie ein dritter Laut der Frageaussprachenzeichenfolge ist, unter der Bedingung erzeugt wird, daß ein zweiter Laut der Frageaussprachenzeichenfolge in der Tabelle schwacher Laute j0 aufgelistet ist, eine Folge von Ableitungstypen <s0J + 0> <s0O – 1> <s0O – 1> bezeichnet es, daß eine erweiterte Aussprachenzeichenfolge, in der ein oberster Laut der gleiche wie ein oberster Laut einer Frageaussprachenzeichenfolge ist, ein zweiter Laut der gleiche wie ein dritter Laut der Frageaussprachenzeichenfolge ist und ein dritter Laut der gleiche wie ein vierter Laut der Frageaussprachenzeichenfolge ist, unter der Bedingung erzeugt wird, daß ein zweiter Laut der Frageaussprachenzeichenfolge in der Tabelle schwacher Laute j0 aufgelistet ist, eine Folge von Ableitungstypen <s0O + 0> <s0J + 0> bezeichnet es, daß eine erweiterte Aussprachenzeichenfolge, in der ein oberster Laut der gleiche wie ein oberster Laut einer Frageaussprachenzeichenfolge ist und ein zweiter Laut der gleiche wie ein zweiter Laut der Frageaussprachenzeichenfolge ist, unter der Bedingung erzeugt wird, daß ein dritter Laut der Frageaussprachenzeichenfolge in der Tabelle schwacher Laute j0 aufgelistet ist, eine Folge von Ableitungstypen <s0O + 0> <s0J + 0> <s0O – 1> bezeichnet es, daß eine erweiterte Aussprachenzeichenfolge, in der ein oberster Laut der gleiche wie ein oberster Laut einer Frageaussprachenzeichenfolge ist, ein zweiter Laut der gleiche wie ein zweiter Laut der Frageaussprachenzeichenfolge ist und ein dritter Laut der gleiche wie ein vierter Laut der Frageaussprachenzeichenfolge ist, unter der Bedingung erzeugt wird, daß ein dritter Laut der Frageaussprachenzeichenfolge in der Tabelle schwacher Laute j0 aufgelistet ist, eine Folge von Ableitungstypen <s0O + 0> <s0O + 0> <s0J + 0> bezeichnet es, daß eine erweiterte Aussprachenzeichenfolge, in der ein oberster Laut der gleiche wie ein oberster Laut einer Frageaussprachenzeichenfolge ist, ein zweiter Laut der gleiche wie ein zweiter Laut der Frageaussprachenzeichenfolge ist und ein dritter Laut der gleiche wie ein dritter Laut der Frageaussprachenzeichenfolge ist, unter der Bedingung erzeugt wird, daß ein vierter Laut der Frageaussprachenzeichenfolge in der Tabelle schwacher Laute j0 aufgelistet ist, und eine Folge von Ableitungstypen <s0O + 0> <s0O + 0> <s0J + 0> <s0O0 – 1> bezeichnet es, daß eine erweiterte Aussprachenzeichenfolge, in der ein oberster Laut der gleiche wie ein oberster Laut einer Frageaussprachenzeichenfolge ist, ein zweiter Laut der gleiche wie ein zweiter Laut der Frageaussprachenzeichenfolge ist, ein dritter Laut der gleiche wie ein dritter Laut der Frageaussprachenzeichenfolge ist und ein vierter Laut der gleiche wie ein fünfter Laut der Frageaussprachenzeichenfolge ist, unter der Bedingung erzeugt wird, daß ein vierter Laut der Frageaussprachenzeichenfolge in der Tabelle schwacher Laute j0 aufgelistet ist. Daher kann der zu einer Vielzahl von Folgen <s0J + 0> <s0O – 1>, <s0J + 0> <s0O – 1> <s0O – 1>, <s0J + 0> <s0O – 1> <s0O – 1> <s0O – 1>, --, <s0O + 0> <s0J + 0>, <s0O + 0> <s0J + 0> <s0O – 1>, <s0O + 0> <s0J + 0> <s0O – 1> <s0O – 1>, --, <s0O + 0> <s0O + 0> <s0J + 0>, <s0O + 0> <s0O + 0> <s0J + 0> <s0O – 1>, <s0O + 0> <s0O + 0> <s0J + 0> <s0O – 1> <s0O – 1>, -- äquivalente reguläre Ausdruck <s0O + 0>* <s0J + 0> <s0O – 1>* erhalten werden.
Ferner besteht die andere Interpretation des Aussprachenähnlichkeitskriteriums S1 darin, daß eine erweiterte Aussprachenzeichenfolge durch ein Einfügen eines in der Tabelle schwacher Laute j0 aufgelisteten Lauts in eine Frageaussprachenzeichenfolge zum Plazieren des Lauts an einer anderen Position der erweiterten Aussprachenzeichenfolge als ihrer obersten Position erzeugt wird. Daher wird eine aus einem anwendbaren Bereich der Anzahl von Lauten in einer Frageaussprachenzeichenfolge (von 1 bis 9) und einem regulären Ausdruck <s0O + 0> <s0O + 0>* <j0O + 1> <s0O + 1>* bestehende Aussprachenerweiterungsregel R2 manuell aus dem Aussprachenähnlichkeitskriterium S1 erhalten.
Ferner bedeutet das Aussprachenähnlichkeitskriterium S2, daß eine erweiterte Aussprachenzeichenfolge durch ein Ersetzen eines Lauts einer Frageaussprachenzeichenfolge durch einen in der Tabelle schwacher verschiedener Laute j1 aufgelisteten anderen Laut erzeugt wird. Daher wird eine aus einem anwendbaren Bereich der Anzahl von Lauten in einer Frageaussprachenzeichenfolge (von 1 bis 10) und einem regulären Ausdruck <s0O + 0>* <j1O + 0> <s0O + 0>* bestehende Aussprachenerweiterungsregel R3 manuell aus dem Aussprachenähnlichkeitskriterium S2 erhalten.
Ferner bedeutet das Aussprachenähnlichkeitskriterium S2, daß eine erweiterte Aussprachenzeichenfolge durch ein Ersetzen eines Lauts einer Frageaussprachenzeichenfolge durch einen in der Tabelle von Lauten der gleichen Zeile d0 aufgelisteten anderen Laut erzeugt wird. Daher wird eine aus einem anwendbaren Bereich der Anzahl von Lauten in einer Frageaussprachenzeichenfolge (von 1 bis 10) und einem regulären Ausdruck <s0O + 0>* <d0O + 0> <s0O + 0>* bestehende Aussprachenerweiterungsregel R4 manuell aus dem Aussprachenähnlichkeitskriterium S3 erhalten.
Ferner bedeutet das Aussprachenähnlichkeitskriterium S4, daß eine erweiterte Aussprachenzeichenfolge durch ein Ersetzen eines Lauts einer Frageaussprachenzeichenfolge mit fünf oder mehr Lauten durch einen von in der Tabelle schwacher verschiedener Laute j1 aufgelisteten Lauten und ein Ersetzen eines anderen Lauts der Frageaussprachenzeichenfolge durch einen von in der Tabelle von Lauten der gleichen Zeile d0 aufgelisteten Lauten erzeugt wird. Daher wird eine aus einem anwendbaren Bereich der Anzahl von Lauten in einer Frageaussprachenzeichenfolge (von 1 bis 10) und einem regulären Ausdruck <s0O + 0>* {(<j1O + 0> <s0O + 0>* <d0O + 0>)|(<d0O + 0> <s0O + 0>* <j1O + 0>)} <s0O + 0>* bestehende Aussprachenerweiterungsregel R5 manuell aus dem Aussprachenähnlichkeitskriterium S3 erhalten.
Die Aussprachenerweiterungsregeln R1 bis R5, die Tabellen ähnlicher Laute und die Definition der Ableitungsbeschränkungen "0" und "J" werden in der Aussprachenerweiterungsregeldatei 14 abgespeichert wie in 17 gezeigt. In diesem Fall bezeichnet es zum Beispiel der Ausdruck j0(a) ="na", "nu" und "ru", daß Laute "na", "nu" und "ru" unter Verwendung eines Lauts "a" als einen Schlüssellaut in der Tabelle schwacher Laute j0 nachgeschlagen werden. Der Ausdruck J = + 0j0 + 1 bezeichnet es, daß die Ableitungsbeschränkung "J" durch + 0j0 + 1 ausgedrückt wird. Der Ausdruck 2–10 <s0O + 0>* <s0J + 0> <s0O – 1>* bezeichnet eine Aussprachenerweiterungsregel, die zum Erweitern und Erzeugen einer Vielzahl von erweiterten Aussprachenzeichenfolgen für eine Frageaussprachenzeichenfolge mit Lauten in dem anwendbaren Bereich von 2 bis 10 unter der Bedingung, daß eine durch einen regulären Ausdruck <s0O + 0>* <s0J + 0> <s0O – 1>* ausgedrückte Vielzahl von Folgen von Ableitungstypen an eine Vielzahl von Folgen von Lauten der erweiterten Aussprachenzeichenfolgen angehängt ist, anweist.
Danach werden die abgespeicherten Inhalten durch die Aussprachenerweiterungsregelleseeinheit 15 gelesen, die Tabellen ähnlicher Aussprachen werden in der Tabelle-ähnlicher-Aussprachen-Speichereinheit 16 gespeichert, und die Definition der Ableitungsbeschränkungen und die Aussprachenerweiterungsregeln werden in der Regulärer-Ausdruck-Speichereinheit 17 gespeichert. Danach wird dann, wenn zum Beispiel eine Frageaussprachenzeichenfolge "na-sho-na-ru" in die Frageaussprachenzeichenfolgenspeichereinheit 12 eingegeben wird, die Anzahl von Lauten in der Frageaussprachenzeichenfolge berechnet und die Anzahl von Lauten wird zu der Ableitungselementerzeugungseinheit 18 ausgegeben. In der Ableitungselementerzeugungseinheit 18 wird eine Tabelle von jeweils aus einer Lautposition Ps, einem abgeleiteten Laut oder mehreren abgeleiteten Lauten Sd, die an der gleichen Lautposition Ps plaziert sind, und einem Ableitungstyp oder mehreren Ableitungstypen Td, die an jeden der abgeleiteten Laute Sd angehängt sind, bestehenden Ableitungselementen Ed(Ps, Td, Sd) erzeugt und ausgegeben. Eine Tabelle von Ableitungselementen Ed für die Frageaussprachenzeichenfolge "na-sho-na-ru" ist in 18 als ein Beispiel gezeigt. Ferner wird ein Satz von jeweils aus einem regulären Ausdruck und der für jede von gemäß dem regulären Ausdruck aus der Frageaussprachenzeichenfolge abgeleiteten Aussprachenzeichenfolgen erlaubten Anzahl von Lauten bestehenden Regulärer-Ausdruck-Elementen durch die Erzeugungseinheit 18 erzeugt und zu der Automatenerzeugungseinheit 19 ausgegeben. Ein Beispiel für den Satz von Regulärer-Ausdruck-Elementen ist in 19 gezeigt. Ein im einzelnen in der Erzeugungseinheit 18 ausgeführter Betrieb wird unter Bezugnahme auf 20 beschrieben.
20 zeigt ein Flußdiagramm, das einen Betrieb der Erzeugung einer Tabelle von einem Ableitungselement oder mehreren Ableitungselementen Ed und eines Satzes von regulären Ausdrücken darstellt.
Wie in 20 gezeigt wird in einem Schritt S41 die durch die Berechnungseinheit 13 berechnete Anzahl von Lauten durch ein Symbol L ausgedrückt, die Anzahl von in der Datei 14 abgespeicherten Aussprachenerweiterungsregeln wird durch ein Symbol N ausgedrückt, eine Variable i wird anfänglich auf 1 eingestellt, und ein Satz von jeweils aus einem Ableitungstyp Td und einer Lautposition Ps bestehenden Positions-/Ableitungselementen (Td, Ps) wird anfänglich auf einen leeren Satz eingestellt. Die Lautposition Ps bezeichnet eine Position eines Lauts in einer erweiterten Aussprachenzeichenfolge, und der Laut wird gemäß dem Ableitungstyp Td abgeleitet. In dem Fall der Frageaussprachenzeichenfolge "na-sho-na-ru" wird die Anzahl L von Lauten auf 4 eingestellt. Ferner wird in Fällen, in denen die in 16A und 16B gezeigten Aussprachenerweiterungsregeln R1 bis R5 von der Regulärer-Ausdruck-Speichereinheit 17 empfangen werden, die Anzahl N auf 5 eingestellt. Danach wird in Fällen, in denen in einem Schritt S42 die Variable i gleich der oder kleiner als die Anzahl N von Aussprachenerweiterungsregeln ist, in Schritten S43 bis S47 ein Betrieb für die Aussprachenerweiterungsregel Ri ausgeführt.
In einem Schritt S43 werden die Definition der Ableitungsbeschränkungen und die durch eine Kombination eines anwendbaren Bereichs (von einer unteren Lautanzahl RLi bis zu einer oberen Lautanzahl RUi) für die Anzahl L von Lauten in der Frageaussprachenzeichenfolge und eines regulären Ausdrucks RE ausgedrückte Aussprachenerweiterungsregel Ri von der Regulärer-Ausdruck-Speichereinheit 17 zu der Erzeugungseinheit 18 übertragen. In einem Schritt S44 wird es beurteilt, ob die Anzahl L von Lauten in der Frageaussprachenzeichenfolge den anwendbaren Bereich erfüllt oder nicht.
In Fällen, in denen die Lautanzahl L den anwendbaren Bereich (RLi ≤ L ≤ RUi) erfüllt, wird in einem Schritt S45 eine Differenz Di bei der Anzahl von Lauten zwischen der Frageaussprachenzeichenfolge und jeder von gemäß der Aussprachenerweiterungsregel Ri erweiterten erweiterten Aussprachenzeichenfolgen berechnet. Die Differenz Di kann aus einem letzten Ableitungstyp des regulären Ausdrucks RE erhalten werden. Im einzelnen wird ein maximaler Wert CC zwischen den ganzen Zahlen "AA" und "BB" in der für den letzten Ableitungstyp angewendeten Ableitungsbeschränkung "Y" = "AAVVBB" berechnet, die Anzahl "ZZ" von verschobenen Lauten bei dem letzten Ableitungstyp <YXXZZ> wird durch einen Wert ZZ ausgedrückt, die Differenz Di = ZZ wird in dem Fall von CC < 0 bestimmt, und die Differenz Di = ZZ – CC wird in dem Fall von CC ≥ 0 bestimmt. In dem Fall des regulären Ausdrucks RE = <s0O + 0>* <s0J + 0> <s0O – 1> der Aussprachenerweiterungsregel R1 wird zum Beispiel die Differenz D1 aus dem letzten Ableitungstyp <s0O – 1> berechnet. Da die Ableitungsbeschränkung "Y" O = + 0s0 + 0 ist, wird ein maximaler Wert CC = 0 berechnet, der Wert ZZ = –1 wird erhalten, und die Differenz D1 = –1 wird bestimmt. In der gleichen Art und Weise wird in dem Fall des regulären Ausdrucks RE = <s0O + 0> <s0O + 0>* <j0O + 1> <s0O + 1>* der Aussprachenerweiterungsregel R2 der letzte Ableitungstyp <s0O + 1> ausgewählt, ein maximaler Wert CC = 0 wird berechnet, der Wert ZZ = +1 wird erhalten, und die Differenz D2 = +1 wird bestimmt. In dem Fall des regulären Ausdrucks RE = <s0O + 0>* <j1O + 0> <s0O + 0>* der Aussprachenerweiterungsregel R3 wird der letzte Ableitungstyp <s0O + 0> ausgewählt, ein maximaler Wert CC = 0 wird berechnet, der Wert ZZ = 0 wird erhalten, und die Differenz D3 = 0 wird bestimmt. In dem Fall des regulären Ausdrucks RE = <s0O + 0>* <d0O + 0> <s0O + 0>* der Aussprachenerweiterungsregel R4 wird der letzte Ableitungstyp <s0O + 0> ausgewählt, ein maximaler Wert CC = 0 wird berechnet, der Wert ZZ = 0 wird erhalten, und die Differenz D4 = 0 wird bestimmt. In dem Fall des regulären Ausdrucks RE = <s0O + 0>* {(<j1O + 0> <s0O + 0>* <d0O + 0>)|(<d0O + 0> <s0O + 0>* <j1O + 0>)} <s0O + 0>* der Aussprachenerweiterungsregel R4 wird der letzte Ableitungstyp <s0O + 0> ausgewählt, ein maximaler Wert CC = 0 wird berechnet, der Wert ZZ = 0 wird erhalten, und die Differenz D5 = 0 wird bestimmt.
Danach wird in einem Schritt S46 die Anzahl Ns von Lauten in jeder der erweiterten Aussprachenzeichenfolgen gemäß einer Gleichung berechnet: Ns = L + Di. Ein aus einem Bereich Ns-Ns der anwendbaren Lautanzahl Ns und dem sich auf die Aussprachenerweiterungsregel Ri beziehenden regulären Ausdruck RE bestehendes Regulärer-Ausdruck-Element (Ns-Ns, RE) wird zu der Automatenerzeugungseinheit 19 übertragen. In dem Fall von L = 4 wird ein Regulärer-Ausdruck-Element (3-3, <s0O + 0>* <s0J + 0> <s0O – 1>*) zu der Automatenerzeugungseinheit 19 übertragen.
Danach werden in einem Schritt S47 alle Positions-/Ableitungselemente (Td, Ps) durch ein Analysieren der Ableitungstypen des sich auf die Aussprachenerweiterungsregel Ri beziehenden regulären Ausdrucks RE erhalten. In Fällen, in denen eine Vielzahl von Positions-/Ableitungselementen durch ein Analysieren der Ableitungstypen <s0O + 0> <s0J + 0> und <s0O – 1> des sich auf die Aussprachenerweiterungsregel R1 beziehenden regulären Ausdrucks <s0O + 0>* <s0J + 0> <s0O – 1>* erhalten wird, reichen zum Beispiel die Lautpositionen Ps von 1 bis Ns. Da der Ableitungstyp <s0J + 0> notwendigerweise in einer eine erweiterte Aussprachenzeichenfolge angebenden Folge von Ableitungstypen enthalten ist, reichen die Lautpositionen Ps für den Ableitungstyp <s0O + 0> von 1 bis Ns – 1, und die Lautpositionen Ps für den Ableitungstyp <s0O – 1> reichen von 2 bis Ns. Die Lautpositionen Ps für den Ableitungstyp <s0J + 0> reichen von 1 bis Ns. Daher stellen sich in dem Fall der Lautanzahl L = 4 in der Frageaussprachenzeichenfolge alle Positions-/Ableitungselemente (Td, Ps) für die Aussprachenerweiterungsregel R1 dar wie folgt:
(<s0O + 0>, 1), (<s0O + 0>, 2), (<s0J + 0>, 1), (<s0J + 0>, 2), (<s0J + 0>, 3), (<s0O – 1>, 2) und (<s0O – 1>, 3).
Die Positions-/Ableitungselemente (Td, Ps) werden in einem Ableitungssatzbereich der Ableitungselementerzeugungseinheit 18 gespeichert, und die Prozedur geht zu einem Schritt S48 über.
Im Gegensatz dazu wird in Fällen, in denen RLi ≤ L ≤ RUi nicht erfüllt ist, die Aussprachenerweiterungsregel Ri nicht berücksichtigt, und die Prozedur springt zu dem Schritt S48. In dem Schritt S48 wird die Variable i erhöht, und ein Betrieb für eine nächste Aussprachenerweiterungsregel Ri wird in den Schritten S43 bis S47 in der gleichen Art und Weise ausgeführt. Daher wird unter der Bedingung, daß sich die Anzahl L von Lauten der Frageaussprachenzeichenfolge in einem anwendbaren Bereich jeder der Aussprachenerweiterungsregeln befindet, ein Satz von Regulärer-Ausdruck-Elementen (Ns-Ns, RE) für eine Aussprachenerweiterungsregel oder mehrere Aussprachenerweiterungsregeln zu der Automatenerzeugungseinheit 19 übertragen und ein Satz von Positions-/Ableitungselementen (Td, Ps) für die Aussprachenerweiterungsregeln in dem Ableitungssatzbereich gespeichert.
In dem Fall von L = 4 werden Regulärer-Ausdruck-Elemente (5-5, <s0O + 0> <s0O + 0>* <J0O + 1> <s0O + 1>*), (4-4, <s0O + 0>* <j1O + 0> <s0O + 0>*) und (4-4, <s0O + 0>* <d0O + 0> <s0O + 0>*) zu der Automatenerzeugungseinheit 19 übertragen. Da in dem Schritt S44 die Lautanzahl L = 4 nicht von RL₅ bis RU₅ reicht, wird in diesem Fall die Aussprachenerweiterungsregel R5 nicht beachtet.
Ferner stellen sich in dem Fall der Lautanzahl L = 4 alle Positions-/Ableitungselemente (Td, Ps) für den regulären Ausdruck <s0O + 0> <s0O + 0>* <J0O + 1> <s0O + 1>* der Aussprachenerweiterungsregel R2 dar wie folgt:
(<S0O + 0>, 1), (<S0O + 0>, 2), (<S0O + 0>, 3), (<S0O + 0>, 4), (<j0O + 1>, 2), (<j0O + 1>, 3), (<j0O + 1>, 4), (<j0O + 1>, 5), (<S0O + 1>, 3), (<S0O + 1>, 4) und (<S0O + 1>, 5).
Ferner stellen sich in dem Fall der Lautanzahl L = 4 alle Positions-/Ableitungselemente (Td, Ps) für den regulären Ausdruck <s0O + 0>* <j1O + 0> <s0O + 0>* der Aussprachenerweiterungsregel R3 dar wie folgt:
(<S0O + 0>, 1), (<S0O + 0>, 2), (<S0O + 0>, 3), (<S0O + 0>, 4), (<j1O + 0>, 1), (<j1O + 0>, 2), (<j1O + 0>, 3) und (<j1O + 0>, 4) .
Ferner stellen sich in dem Fall der Lautanzahl L = 4 alle Positions-/Ableitungselemente (Td, Ps) für den regulären Ausdruck <s0O + 0>* <d0O + 0> <s0O + 0>* der Aussprachenerweiterungsregel R4 dar wie folgt:
(<S0O + 0>, 1), (<S0O + 0>, 2), (<S0O + 0>, 3), (<S0O + 0>, 4), (<d0O + 0>, 1), (<d0O + 0>, 2), (<d0O + 0>, 3) und (<d0O + 0>, 4) .
Daher werden 24 Positions-/Ableitungselemente (Td, Ps) erhalten wie folgt:
(<S0O + 0>, 1), (<S0O + 0>, 2), (<S0O + 0>, 3), (<S0O + 0>, 4), (<S0J + 0>, 1), (<S0J + 0>, 2), (<SJO + 0>, 3), (<S0O – 1>, 2), (<S0O – 1>, 3), (<j0O + 1>, 2), (<j0O + 1>, 3), (<j0O + 1>, 4), (<j0O + 1>, 5), (<j1O + 0>, 1), (<j1O + 0>, 2), (<j1O + 0>, 3), (<j1O + 0>, 4), (<S0O + 1>, 3), (<S0O + 1>, 4), (<S0O + 1>, 5), (<d0O + 0>, 1), (<d0O + 0>, 2), (<d0O + 0>, 3) und (<d0O + 0>, 4) .
In Fällen, in denen in dem Schritt S42 die Variable i die Anzahl N übersteigt, geht die Prozedur zu einem Schritt S49 über. In dem Schritt S49 wird die Anzahl M von in dem Ableitungssatz bereits gespeicherten Positions-/Ableitungselementen (Td, Ps) berechnet, eine Variable j wird anfänglich auf 1 eingestellt, und ein Satz von in einem Ableitungselementspeicherbereich der Ableitungselementerzeugungseinheit 18 gespeicherten Ableitungselementen wird anfänglich auf einen leeren Satz eingestellt. Die Positions-/Ableitungselemente (Td, Ps) werden von dem ersten bis zu dem M-ten numeriert.
Danach wird es in Fällen, in denen in einem Schritt S50 die Variable j gleich der oder kleiner als die Anzahl M von Positions-/Ableitungselementen ist, beurteilt, daß zumindest ein j-tes Positions-/Ableitungselement nicht in Schritten S51 bis S58 verarbeitet wird. Daher wird in einem Schritt S51 das aus einer speziellen Lautposition Ps und einem speziellen Ableitungstyp Td bestehende j-te Positions-/Ableitungselement (Td, Ps) aus dem Ableitungssatzbereich ausgelesen, um in Schritten S52 bis S58 das j-te Positions-/Ableitungselement (Td, Ps) einer Tabelle von Ableitungselementen hinzuzufügen. In einem Schritt S52 werden alle Typen von an der gleichen speziellen Lautposition Ps des j-ten Positions-/Ableitungselements (Td, Ps) plazierten speziellen abgeleiteten Lauten unter Verwendung der in der Speichereinheit 12 gespeicherten Frageaussprachenzeichenfolge, der speziellen Ableitungstypen Td des j-ten Positions-/Ableitungselements (Td, Ps) und der in der Speichereinheit 16 gespeicherten Tabellen ähnlicher Laute herausgefunden. Danach wird in einem Schritt S53 die Anzahl Q von Typen von speziellen abgeleiteten Lauten berechnet, und eine Variable k wird anfänglich auf 1 eingestellt. Die herausgefundenen Typen von speziellen abgeleiteten Lauten werden numeriert.
In Fällen, in denen in einem Schritt S54 die Variable k gleich der oder kleiner als die Anzahl Q ist, da ein k-ter Typ von speziellem abgeleitetem Laut nicht in Schritten S55 bis S58 verarbeitet wird, wird der Bequemlichkeit halber in einem Schritt S55 der k-te Typ von speziellem abgeleitetem Laut durch ein Symbol Sd ausgedrückt, und es wird beurteilt, ob ein sich auf die spezielle Lautposition Ps und den speziellen abgeleiteten Laut Sd beziehendes spezielles Ableitungselement Ed in einer Tabelle von Ableitungselementen vorhanden ist oder nicht. In Fällen, in denen das spezielle Ableitungselement Ed in der Tabelle vorhanden ist, wird in einem Schritt S57 der spezielle Ableitungstyp Td dem speziellen Ableitungselement Ed hinzugefügt. Im Gegensatz dazu wird in Fällen, in denen das spezielle Ableitungselement Ed nicht in der Tabelle vorhanden ist, in einem Schritt S58 ein aus der speziellen Lautposition Ps, dem speziellen Ableitungstyp Td und dem speziellen abgeleiteten Laut Sd bestehendes Ableitungselement Ed(Ps, Td, Sd) der Tabelle von Ableitungselementen hinzugefügt. Danach wird die Variable k in einem Schritt S59 erhöht, und ein nächster k-ter Typ von speziellem abgeleitetem Laut Sd wird in den Schritten S55 bis S58 in der gleichen Art und Weise verarbeitet.
Wenn es in dem Schritt S54 beurteilt wird, daß alle in dem Schritt S52 herausgefundenen Typen von speziellen abgeleiteten Lauten Sd verarbeitet sind, wird die Variable j in einem Schritt S60 erhöht, ein nächstes j- tes Positions-/Ableitungselement (Td, Ps) wird in dem Schritt S51 aus dem Ableitungssatzbereich ausgelesen, und das j-te Positions-/Ableitungselement (Td, Ps) wird in Schritten S52 bis S58 in der gleichen Art und Weise zu der Tabelle von Ableitungselementen hinzugefügt. Wenn die Variable j in dem Schritt S50 die Anzahl M übersteigt, wird es beurteilt, daß alle in dem Ableitungssatzbereich gespeicherten Positions-/Ableitungselemente (Td, Ps) in den Schritten S51 bis S58 verarbeitet sind, und die Prozedur geht zu einem Schritt S61 über. In dem Schritt S61 werden in Fällen, in denen eine Vielzahl von sich jeweils auf die gleiche Lautposition Ps und den gleichen Ableitungstyp (oder die gleichen Ableitungstypen) Td beziehenden Ableitungselementen Ed(Ps, Td, Sd) unter der Bedingung vorhanden ist, daß eine Vielzahl von abgeleiteten Lauten Sd in den Ableitungselementen Ed(Ps, Td, Sd) vorhanden ist, die Ableitungselemente Ed(Ps, Td, Sd) zu einem aus der Lautposition Ts, dem Ableitungstyp (oder den Ableitungstypen) Td und den abgeleiteten Lauten Sd bestehenden Ableitungselement Ed(Ps, Td, Sd) vereint. Daher wird eine in 18 als ein Beispiel gezeigte Tabelle von Ableitungselementen Ed(Ps, Td, Sd) von der Erzeugungseinheit 18 ausgegeben.
Danach wird in der Automatenerzeugungseinheit 19 ein durch eine in 21 gezeigte Zustandsübergangsansicht ausgedrückter deterministischer finiter Zustandsautomat aus dem durch die Erzeugungseinheit 18 erzeugten Satz von Regulärer-Ausdruck-Elementen (Ns-Ns, RE) erzeugt. In 21 geben Kreise Zwischenzustände an, Doppelkreise geben Endzustände an, und in den Kreisen und Doppelkreisen plazierte Nummern werden jeweils als eine Zustandsnummer bezeichnet. In Fällen, in denen ein in 19 gezeigtes erstes Regulärer-Ausdruck-Element (3-3, <s0O + 0>* <s0J + 0> <s0O – 1>*) angewendet wird, wird ein Zustandsübergang von dem Zustand 1 zu dem Zustand 3 oder ein Zustandsübergang von dem Zustand 1 zu dem Zustand 3 über den Zustand 2 ausgeführt. In Fällen, in denen ein in 19 gezeigtes zweites Regulärer-Ausdruck-Element (5-5, <s0O + 0> <s0O + 0>* <j0O + 1> <s0O + 1>*) angewendet wird, wird ein Zustandsübergang von dem Zustand 1 zu dem Zustand 5 über den Zustand 2 ausgeführt. In Fällen, in denen ein in 19 gezeigtes drittes Regulärer-Ausdruck-Element (4-4, <s0O + 0>* <j1O + 0> <s0O + 0>*) angewendet wird, wird ein Zustandsübergang von dem Zustand 1 zu dem Zustand 4 über den Zustand 2 ausgeführt. In Fällen, in denen ein in 19 gezeigtes viertes Regulär-Ausdruck-Element (4-4, <s0O + 0>* <d0O + 0> <s0O + 0>*) angewendet wird, wird ein Zustandsübergang von dem Zustand 1 zu dem Zustand 4 über den Zustand 2 ausgeführt.
Danach wird eine zu dem deterministischen finiten Zustandsautomaten äquivalente Zustandsübergangstabelle durch die Automatenerzeugungseinheit 19 erzeugt und wird von der Erzeugungseinheit 19 ausgegeben. Das heißt, alle regulären Ausdrücke des Satzes von Regulärer-Ausdruck-Elementen werden verbunden, um die regulären Ausdrücke logisch zu summieren, und ein vereinter regulärer Ausdruck wird erzeugt. Danach wird der vereinte reguläre Ausdruck gemäß einem bekannten Untersatzaufbauverfahren in den deterministischen finiten Zustandsautomaten transformiert.
Die Zustandsübergangstabelle ist in 22 als ein Beispiel gezeigt. Wie in 22 als ein Beispiel gezeigt wird in Fällen, in denen ein oberster Laut einer erweiterten Aussprachenzeichenfolge gemäß einem als eine Übergangsbedingung behandelten Ableitungstyp <s0O + 0> aus einem angemerkten Laut der Frageaussprachenzeichenfolge abgeleitet wird, dann, wenn der Automat in dem Anfangszustand 1 plaziert ist, ein Zustandsübergang von dem Anfangszustand 1 zu dem Zustand 2 in dem Automaten ausgeführt. Danach hält in Fällen, in denen ein zweiter Laut der erweiterten Aussprachenzeichenfolge gemäß einem Ableitungstyp <s0O + 0> abgeleitet wird, der Zustand des Automaten den Zustand 2, und ein dritter Laut der erweiterten Aussprachenzeichenfolge wird gemäß einem Ableitungstyp <sJO + 0> abgeleitet, indem ein Zustandsübergang von dem Zustand 2 zu dem Zustand 3 ausgeführt wird. Im Gegensatz dazu wird in Fällen, in denen ein zweiter Laut der erweiterten Aussprachenzeichenfolge gemäß einem Ableitungstyp <sJO + 0> abgeleitet wird, ein Zustandsübergang von dem Zustand 2 zu dem Zustand 3 in dem Automaten ausgeführt, und ein dritter Laut der erweiterten Aussprachenzeichenfolge wird gemäß einem Ableitungstyp <s0O – 1> abgeleitet, während der Zustand des Automaten auf dem Zustand 3 gehalten wird. Daher werden die erweiterten Aussprachenzeichenfolgen mit drei Lauten erhalten.
Entsprechend können die Tabelle von Ableitungselementen und die Zustandsübergangstabelle, die eine Vielzahl von der Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen angeben, von der Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 11 ausgegeben werden, ohne die erweiterten Aussprachenzeichenfolgen (oder die ähnlichen Aussprachenzeichenfolgen) direkt auszugeben. Selbst wenn Millionen von ähnlichen Aussprachenzeichenfolgen vorhanden sind, kann daher ein Ausgabevolumen beträchtlich verringert werden, da die ähnlichen Aussprachenzeichenfolgen nicht direkt ausgegeben werden und die Tabelle von Ableitungselementen und die Zustandsübergangstabelle ausgegeben werden.
Ferner werden alle Aussprachenerweiterungsregeln nicht getrennt angewendet, sondern werden bei der Erzeugung des deterministischen finiten Zustandsautomaten und der Zustandsübergangstabelle in einer Gruppe angewendet. Selbst wenn es erforderlich ist, Dutzende von Aussprachenerweiterungsregeln anzuwenden, und Millionen von ähnlichen Aussprachenzeichenfolgen vorhanden sind, können daher die Tabelle von Ableitungselementen und die Zustandsübergangstabelle, in der Dutzende von Aussprachenerweiterungsregeln in einer Gruppe angewendet werden, in einer kurzen Zeit erhalten werden.
Ferner kann jede Aussprachenerweiterungsregel einer Vielzahl von Aussprachenerweiterungsregeln einfach durch eine Kombination eines anwendbaren Bereichs der Anzahl von Lauten und eines regulären Ausdrucks angegeben werden, und die Aussprachenerweiterungsregeln können beliebig in der Datei 14 abgespeichert werden. Das heißt, das Abspeichern der Aussprachenerweiterungsregeln ist nicht festgelegt. Selbst wenn ein Aussprachenähnlichkeitskriterium oder mehrere Aussprachenähnlichkeitskriterien verändert werden, kann daher eine den veränderten Aussprachenähnlichkeitskriterien entsprechende Vielzahl von Aussprachenerweiterungsregeln ohne eine Beschwerlichkeit unmittelbar in der Datei 14 abgespeichert werden.
In Fällen, in denen die Ableitungstyperzeugungseinheit 20 verwendet wird, wird eine Vielzahl von Ableitungstypen im voraus erzeugt, um eine Vielzahl von an einer Vielzahl von Positionen einer Vielzahl von erweiterten Aussprachenzeichenfolgen plazierten Lauten von einer Vielzahl von angemerkten Lauten von verschiedenen Frageaussprachenzeichenfolgen mit verschiedenen Lautlängen abzuleiten. Daher werden die in der durch die Speichereinheit 18 erzeugten Tabelle von Ableitungselementen aufgelisteten Ableitungstypen von der Ableitungstyperzeugungseinheit 20 übertragen.
In Fällen, in denen die Ableitungstyplistennummernerzeugungseinheit 21 verwendet wird, wird eine Vielzahl von serienweise numerierten Ableitungstyplistennummern jeweils an eine Liste von einem Ableitungstyp oder mehreren Ableitungstypen eines durch die Erzeugungseinheit 18 erzeugten Ableitungselements angehängt. Daher werden die Ableitungstyplistennummern anstelle der Ableitungstypen als Übergangsbedingungen in dem deterministischen finiten Zustandsautomaten verwendet.
In Fällen, in denen die Klassifizierungsnummernregistrierungseinheit 22 verwendet wird, werden ein regulärer Ausdruck oder mehrere reguläre Ausdrücke, die in der Speichereinheit 17 gespeichert sind, unter der Bedingung, daß eine Klassifizierungsnummer oder mehrere Klassifizierungsnummern, die für eine Aussprachenerweiterungsregel oder mehrere Aussprachenerweiterungsregeln, die sich auf die ausgewählten regulären Ausdrücke beziehen, in der Registrierungseinheit 22 registriert sind, selektiv zu der Erzeugungseinheit 18 übertragen, und eine Tabelle von Ableitungselementen und ein Satz von Regulärer-Ausdruck-Elementen werden in der Erzeugungseinheit 18 erzeugt, indem die ausgewählten regulären Ausdrücke berücksichtigt werden.
Bei dem vorstehend beschriebenen Ausführungsbeispiel werden die Ableitungselemente in der in 18 gezeigten Tabelle in der Reihenfolge bestimmt, in der die Nummer der Lautposition erhöht wird. Die Reihenfolge, in der die Ableitungselemente bestimmt werden, ist jedoch nicht begrenzt.
Ferner wird eine Position eines angemerkten Lauts in den Frageaussprachenzeichenfolgen durch eine absolute Position angegeben, um jedes der Ableitungselemente zu erhalten. Es ist jedoch anwendbar, daß eine Position eines angemerkten Lauts in der Frageaussprachenzeichenfolge durch eine relative Position zu einer Position eines abgeleiteten Lauts in einer erweiterten Aussprachenzeichenfolge angegeben wird. Ferner ist die bei diesem Ausführungsbeispiel definierte Ableitungsbeschränkung nicht begrenzt. Das heißt, es ist anwendbar, daß die Definition der Ableitungsbeschränkung ohne Rücksicht auf eine erweiterte Aussprachenzeichenfolge nur von einer Frageaussprachenzeichenfolge abhängt.
Als nächstes wird ein zweites Ausführungsbeispiel beschrieben, bei dem ein Name oder mehrere Namen (oder Marken), die mit einer erweiterten Aussprachenzeichenfolge oder mehreren erweiterten Aussprachenzeichenfolgen übereinstimmen, die einer Frageaussprachenzeichenfolge (oder einer ähnlichen Aussprachenzeichenfolge oder mehreren ähnlichen Aussprachenzeichenfolgen) in der Aussprache ähneln, unter Verwendung der von der Ableitungselementerzeugungseinheit 18 ausgegebenen Tabelle von Ableitungselementen und der von der Automatenerzeugungseinheit 19 ausgegebenen Zustandsübergangstabelle wiedergewonnen werden.
23 zeigt ein Blockschaltbild einer Zeichenfolgenwiedergewinnungsvorrichtung (oder Namenswiedergewinnungsvorrichtung), in der ein Name oder mehrere Namen, die mit einer ähnlichen Aussprachenzeichenfolge oder mehreren ähnlichen Aussprachenzeichenfolgen übereinstimmen, die durch die Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen 11 indirekt angegeben werden, gemäß einem zweiten Ausführungsbeispiel der Erfindung wiedergewonnen werden.
Wie in 23 gezeigt umfaßt eine Zeichenfolgenwiedergewinnungsvorrichtung 31
eine Ableitungselementtabellenspeichereinheit 32 zum Speichern der von der Ableitungselementerzeugungseinheit 18 ausgegebenen Tabelle von Ableitungselementen in tabellarischer Form,
eine Zustandsübergangstabellenspeichereinheit 33 zum Speichern der von der Automatenerzeugungseinheit 19 ausgegebenen Zustandsübergangstabelle in tabellarischer Form,
eine Ableitungselementfolgenerzeugungseinheit 34 zum Erzeugen einer Folge von in der Reihenfolge der Lautposition angeordneten Ableitungselementen aus der in der Ableitungselementtabellenspeichereinheit 32 gespeicherten Tabelle von Ableitungselementen, während die Anzahl von Ableitungselementen in der Folge einzeln erhöht wird,
eine Ableitungselementfolgenbeurteilungseinheit 35 zum Beurteilen, ob die durch die Ableitungselementfolgenerzeugungseinheit 34 erzeugte Folge von Ableitungselementen Zustandsübergangsbedingungen und den Bereich Ns-Ns der anwendbaren Lautanzahl, die durch die in der Zustandsübergangstabellenspeichereinheit 33 gespeicherte Zustandsübergangstabelle angegeben werden, erfüllt oder nicht, um zu beurteilen, ob die Folge von Ableitungselementen die in der Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen verwendeten Aussprachenerweiterungsregeln (zum Beispiel in 16A und 16B gezeigt) erfüllt oder nicht,
die Aussprachen-/Markennummerndatenspeichereinheit 115,
die Aussprachenindexspeichereinheit 117,
eine Markennummernwiedergewinnungseinheit 36 zum Empfangen einer Folge oder mehrerer Folgen von Ableitungselementen, die die Aussprachenerweiterungsregeln erfüllen, von der Ableitungselementfolgenbeurteilungseinheit 35, Extrahieren einer Folge von in der Reihenfolge der Lautposition angeordneten abgeleiteten Lauten aus jeder der Folgen von Ableitungselementen, Wiedergewinnen einer Aussprachennummer oder mehrerer Aussprachennummern, die den Folgen von abgeleiteten Lauten entsprechen, aus der Aussprachenindexspeichereinheit 117 und Wiedergewinnen einer Markennummer oder mehrerer Markennummern, die den Aussprachennummern entsprechen, aus der Aussprachen-/Markennummerndatenspeichereinheit 115, und
eine Überlappende-Markennummern-Entfernungseinheit 37 zum Ändern einer Vielzahl von überlappenden Markennummern, die durch die Markennummernwiedergewinnungseinheit 36 wiedergewonnen werden und die gleiche Nummer aufweisen, zu einer Markennummer und Ausgeben einer Markennummer oder mehrerer Markennummern, die einander nicht überlappen, als ein Ergebnis der Wiedergewinnung.
In der Ableitungselementtabellenspeichereinheit 32 wird eine Vielzahl von Ableitungselementen in tabellarischer Form gespeichert, um die Ableitungselemente mit hoher Geschwindigkeit in der Reihenfolge der Lautposition anzuordnen. In der Zustandsübergangstabellenspeichereinheit 33 wird die Zustandsübergangstabelle in tabellarischer Form gespeichert, um einen nachfolgenden Zustand oder mehrere nachfolgende Zustände aus einem derzeitigen Zustand und einem Ableitungstyp oder mehreren Ableitungstypen, die für den derzeitigen Zustand erlaubt sind, mit hoher Geschwindigkeit zu erhalten.
Bei dem vorstehend beschriebenen Aufbau wird es dann, wenn eine Folge, die aus einem Ableitungselement oder mehreren Ableitungselementen besteht, die in der Reihenfolge der Lautposition angeordnet sind, in der Erzeugungseinheit 34 durch ein Extrahieren der in der Ableitungselementtabellenspeichereinheit 32 gespeicherten Ableitungselemente eines nach dem anderen erzeugt wird, durch die Beurteilungseinheit 35 beurteilt, ob die Folge von Ableitungselementen Zustandsübergangsbedingungen und den Bereich Ns-Ns der anwendbaren Lautanzahl, die durch die in der Zustandsübergangstabellenspeichereinheit 33 gespeicherte Zustandsübergangstabelle angegeben werden, erfüllt oder nicht. In Fällen, in denen die Folge die Zustandsübergangsbedingungen oder den Bereich Ns-Ns der anwendbaren Lautanzahl nicht erfüllt, wird eine andere Folge in der Erzeugungseinheit 34 erzeugt. Im Gegensatz dazu wird in Fällen, in denen die Folge die Zustandsübergangsbedingungen oder den Bereich Ns-Ns der anwendbaren Lautanzahl erfüllt, eine Folge von abgeleiteten Lauten aus der Folge von Ableitungselementen in der Wiedergewinnungseinheit 36 erzeugt, und eine Markennummer oder mehrere Markennummern, die der Folge von abgeleiteten Lauten entsprechen, werden wiedergewonnen. Der vorstehend beschriebene Betrieb wird wiederholt, um in der Erzeugungseinheit 34 alle durch ein Kombinieren der Ableitungselemente in der Reihenfolge der Lautposition erhaltenen Folgen von Ableitungselementen zu erzeugen. Danach wird in der Entfernungseinheit 37 eine Vielzahl von überlappenden Markennummern zu einer Markennummer geändert, und eine Markennummer oder mehrere Markennummern ohne eine überlappende Markennummer werden ausgegeben.
Der Betrieb der Zeichenfolgenwiedergewinnungsvorrichtung 31 wird unter der Bedingung, daß die Frageaussprachenzeichenfolge "na-sho-na-ru" und die Aussprachenerweiterungsregeln R1 bis R5 in der Erweiterungsvorrichtung 11 verwendet werden, unter Bezugnahme auf 24 im einzelnen beschrieben.
In einem Schritt S71 wird eine in der Erzeugungseinheit 34 erzeugte Folge von Ableitungselementen anfänglich auf eine leere Folge eingestellt, die Anzahl N von Ableitungselementen in der Folge wird anfänglich auf 1 eingestellt, und ein einen derzeitigen Zustand angebender Zustandsstapel wird anfänglich auf "1" eingestellt. Der Zustandsstapel "1" gibt an, daß der derzeitige Zustand auf den ersten Zustand eingestellt ist.
In einem Schritt S72 eines ersten Zyklus wird es beurteilt, ob alle sich auf die N-te Lautposition beziehenden Ableitungselemente Ed(N, Td, Sd) jeweils zum Erzeugen eines Satzes von Ableitungselementen verwendet worden sind oder nicht. In Fällen, in denen ein sich auf die N-te Lautposition beziehendes Ableitungselement nicht verwendet worden ist, wird in einem Schritt S73 das Ableitungselement aus der in der Speichereinheit 32 gespeicherten Tabelle von Ableitungselementen extrahiert und wird über die Erzeugungseinheit 34 als ein Kandidat für die N-te Lautposition zu der Beurteilungseinheit 35 übertragen. Da kein sich auf die erste (oder oberste) Lautposition beziehendes Ableitungselement zum Erzeugen eines Satzes von Ableitungselementen verwendet wird, wird in dem Schritt S73 ein Ableitungselement (1, <s0O + 0>, "na") als ein erster Kandidat für die erste Lautposition zu der Beurteilungseinheit 35 übertragen.
Danach werden in einem Schritt S74 ein nachfolgender Zustand oder mehrere nachfolgende Zustände, die durch ein Ausführen eines Zustandsübergangs oder mehrerer Zustandsübergänge aus dem derzeitigen Zustand für einen Ableitungstyp oder mehrere Ableitungstypen des Ableitungselements erhalten werden, gemäß der in der Speichereinheit 33 gespeicherten Zustandsübergangstabelle bestimmt, und ein Satz D der nachfolgenden Zustände wird erzeugt. Da das Ableitungselement nur den Ableitungstyp <s0O + 0> aufweist, wird der aus dem zweiten Zustand bestehende Satz D erhalten.
Danach wird es in einem Schritt S75 durch die Beurteilungseinheit 35 beurteilt, ob der Satz D leer ist oder nicht. In Fällen, in denen der Satz D leer ist, kehrt die Prozedur zu dem Schritt S72 zurück, da kein nachfolgender Zustand vorhanden ist, und ein sich auf die N-te Lautposition beziehendes nächstes Ableitungselement wird als ein nächster Kandidat für die N-te Lautposition aus der Speichereinheit 32 extrahiert. Im Gegensatz dazu wird in Fällen, in denen der Satz D nicht leer ist, das in dem Schritt S73 extrahierte Ableitungselement in der Erzeugungseinheit 34 als ein letztes Ableitungselement in der Folge zu der Folge von Ableitungselementen hinzugefügt (Schritt S76), und eine Folge von Ableitungselementen wird neu erzeugt. Da der Satz D aus dem zweiten Zustand besteht, wird in dem Schritt S76 das Ableitungselement (1, <s0O + 0>, "na") zu der Folge von Ableitungselementen hinzugefügt.
Danach wird in einem Schritt S77 die anwendbare Lautanzahl Ns für jeden der nachfolgenden Zustände des Satzes D gemäß der in der Speichereinheit 33 gespeicherten Zustandsübergangstabelle erhalten, und eine Union K der anwendbaren Lautanzahlen Ns für die nachfolgenden Zustände des Satzes D wird in der Beurteilungseinheit 35 berechnet. Da der nachfolgende Zustand des Satzes D der zweite Zustand ist und keine anwendbare Lautanzahl für den zweiten Zustand definiert ist, ist die Union K leer.
Danach wird es durch die Beurteilungseinheit 35 beurteilt, ob die Anzahl N von Ableitungselementen in der Folge in der Union K enthalten ist oder nicht (Schritt S78). In Fällen, in denen die Anzahl N nicht in der Union K enthalten ist, wird es beurteilt, daß keine ähnliche Aussprachenzeichenfolge aus der Folge von Ableitungselementen erhalten wird, da der durch die Zustandsübergangstabelle angegebene Bereich Ns-Ns der anwendbaren Lautanzahl nicht erfüllt ist, und die Prozedur geht zu einem Schritt S79 über. Da die Union K leer ist, ist die Anzahl N = 1 nicht in der Union K enthalten.
In dem Schritt S79 wird die Anzahl N erhöht, um eine andere Folge von Ableitungselementen zu bilden, die nachfolgenden Zustände des Satzes D werden in den Zustandsstapel eingegeben, um die nachfolgenden Zustände als einen derzeitigen Zustand oder mehrere derzeitige Zustände einzustellen, die neu bestimmt werden, und die Prozedur kehrt zu dem Schritt S72 zurück. Das heißt, die Anzahl N wird auf 2 eingestellt, und der zweite Zustand wird auf den derzeitigen Zustand eingestellt.
In dem Schritt S72 eines zweiten Zyklus wird deswegen, weil kein sich auf die zweite Lautposition (N = 2) beziehendes Ableitungselement verwendet wird, in dem Schritt S73 ein Ableitungselement (2, <s0O + 0>, <s0J + 0>, "sho") als ein erster Kandidat für die zweite Lautposition zu der Beurteilungseinheit 35 übertragen, ein aus dem zweiten Zustand und dem dritten Zustand bestehender Satz D wird in dem Schritt S74 erzeugt, da die Ableitungstypen <s0O + 0> und <s0J + 0> in dem Ableitungselement vorhanden sind, und das Ableitungselement (2, <s0O + 0>, <s0J + 0>, "sho") wird in dem Schritt S76 zu der Folge von Ableitungselementen hinzugefügt, da der Satz D nicht leer ist. Danach wird deswegen, weil die anwendbare Lautanzahl Ns = 3 für den dritten Zustand definiert ist, obwohl keine anwendbare Lautanzahl für den zweiten Zustand definiert ist, eine aus der anwendbaren Lautanzahl Ns = 3 bestehende Union K in dem Schritt S77 erzeugt, und die Prozedur geht zu dem Schritt S79 über, da die Anzahl N = 2 nicht in der Union K enthalten ist. Das heißt, eine Wiedergewinnungsoperation zum Wiedergewinnen einer Aussprachenzeichenfolge "na-sho", die durch ein Verbinden der Ableitungstypen <s0O + 0> und <s0O + 0> (oder <s0J + 0>) der Ableitungselemente in der Folge in dieser Reihenfolge erhalten wird, wird nicht in der Markennummernwiedergewinnungseinheit 36 ausgeführt. In dem Schritt S79 wird die Anzahl N auf 3 eingestellt, und der zweite und dritte Zustand des Satzes D werden auf die derzeitigen Zustände eingestellt.
In dem Schritt S72 eines dritten Zyklus wird deswegen, weil kein sich auf die dritte Lautposition (N = 3) beziehendes Ableitungselement verwendet wird, in dem Schritt S73 ein Ableitungselement (3, <s0O + 0>, <s0J + 0>, <j0O + 1>, "na") als ein erster Kandidat für die dritte Lautposition zu der Beurteilungseinheit 35 übertragen, der zweite Zustand wird durch eine Folge von Ableitungstypen <s0O + 0> <s0O + 0> <s0O + 0> erhalten, der dritte Zustand wird durch eine Folge von Ableitungstypen <s0O + 0> <s0O + 0> <s0J + 0> erhalten, und der fünfte Zustand wird durch eine Folge von Ableitungstypen <s0O + 0> <s0O + 0> <j0O + 1> erhalten. Daher wird in dem Schritt S74 ein aus dem zweiten Zustand, dem dritten Zustand und dem fünften Zustand bestehender Satz D erzeugt, und in dem Schritt S76 wird das Ableitungselement (3, <s0O + 0>, <s0J + 0>, <j0O + 1>, "na") der Folge von Ableitungselementen hinzugefügt, da der Satz D nicht leer ist. Danach wird in dem Schritt S77 eine aus den anwendbaren Lautanzahlen Ns = 3 und 5 bestehende Union K erzeugt, und die Prozedur geht zu einem Schritt S80 über, da die Anzahl N = 3 in der Union K enthalten ist.
In dem Schritt S80 werden eine Folge oder mehrere Folgen von abgeleiteten Lauten in der Wiedergewinnungseinheit 36 erzeugt, indem N abgeleitete Laute der in dem Schritt S73 extrahierten Ableitungselemente in der Reihenfolge der Lautposition verbunden werden, und eine Aussprachennummer oder mehrer Aussprachennummern, die den Folgen von abgeleiteten Lauten entsprechen, werden aus der Aussprachenindexspeichereinheit 117 wiedergewonnen. Da eine Folge von abgeleiteten Lauten "na-sho-na" erzeugt wird, indem die abgeleiteten Laute der drei Ableitungselemente verbunden werden, wird eine Aussprachennummer "8" aus der Speichereinheit 117 wiedergewonnen. Danach werden in einem Schritt S81 eine Markennummer oder mehrere Markennummern, die der Aussprachennummer entsprechen, aus der Aussprachen-/Markennummerndatenspeichereinheit 115 in der Wiedergewinnungseinheit 36 wiedergewonnen, und die Markennummern werden in einem Wiedergewinnungsergebnisspeicherbereich gespeichert. Da die Aussprachennummer "8" wiedergewonnen wird, werden die Markennummern "1100359" und "1101022" erhalten.
Danach wird in dem Schritt S79 die Anzahl N auf 4 eingestellt, und der zweite, dritte und fünfte Zustand des Satzes D werden auf die derzeitigen Zustände eingestellt.
In den Schritten S72 bis S79 eines vierten Zyklus wird ein aus dem einer Folge von Ableitungstypen <s0O + 0> <s0O + 0> <s0O + 0> <s0O + 0> entsprechenden zweiten Zustand und dem einer Folge von Ableitungstypen <s0O + 0> <s0O + 0> <s0O + 0> <j0O + 1> entsprechenden fünften Zustand bestehender Satz D erzeugt, das Ableitungselement (4, <s0O + 0>, <j0O + 1>, "ru") wird als ein erster Kandidat für die vierte Lautposition der Folge von Ableitungselementen hinzugefügt, die Anzahl N wird auf 5 eingestellt, und der zweite und fünfte Zustand des Satzes D werden auf die derzeitigen Zustände eingestellt.
In der gleichen Art und Weise wird in den Schritten S72 bis S78 eines fünften Zyklus das Ableitungselement (5, <s0O + 0>, <j0O + 1>, "ru") als ein erster Kandidat für die fünfte Lautposition zu der Folge von Ableitungselementen hinzugefügt, und in dem Schritt S79 des fünften Zyklus wird die Anzahl N auf 6 eingestellt. Da kein sich auf die sechste Lautposition (N = 6) beziehendes Ableitungselement in der Tabelle von Ableitungselementen vorhanden ist, geht die Prozedur zu einem Schritt S82 über.
In dem Schritt S82 wird es beurteilt, ob die Anzahl N auf 1 verringert wird oder nicht, nachdem die Anzahl N maximiert ist. In Fällen, in denen die Anzahl N nicht gleich 1 ist, geht die Prozedur zu einem Schritt S83 über. In dem Schritt S83 wird die Anzahl N um 1 verringert, das zuletzt zu der Folge von Ableitungselementen hinzugefügte Ableitungselement wird aus der Folge entfernt, um einen anderen Kandidaten zu der Folge hinzuzufügen, und die Beschaffenheit des Zustandsstapels wird geändert, um die nachfolgenden Zustände für die verringerte Anzahl N als die derzeitigen Zustände einzustellen. Wegen der Anzahl N = 6 wird in dem Schritt S83 die Anzahl N auf N = 5 verringert, das Ableitungselement (5, <s0O + 0>, <j0O + 1>, "ru") wird aus der Folge entfernt, und der zweite und fünfte Zustand werden als die derzeitigen Zustände eingestellt.
Danach wird in den Schritten S72 bis S79 eines sechsten Zyklus das Ableitungselement (5, <j0O + 1>, "na", "nu") als ein zweiter Kandidat für die fünfte Lautposition zu der in dem vierten Zyklus erhaltenen Folge von Ableitungselementen hinzugefügt, und die Anzahl N wird auf 6 eingestellt. Danach wird in den Schritten S82 und S83 die Anzahl N auf 5 verringert, und das Ableitungselement (5, <j0O + 1>, "na", "nu") wird aus der Folge entfernt. Danach wird deswegen, weil alle sich auf die fünfte Lautposition beziehenden Ableitungselemente verwendet sind, die Anzahl N auf 4 verringert, und das Ableitungselement (4, <s0O + 0>, <j0O + 1>, "ru") wird in den Schritten S82 und S83 aus der Folge entfernt.
Danach werden jedes von sich auf die vierte Lautposition beziehenden verbleibenden Ableitungselementen und jedes der sich auf die fünfte Lautposition beziehenden Ableitungselemente in der gleichen Art und Weise zu der in dem dritten Zyklus erzeugten Folge von Ableitungselementen hinzugefügt. In Fällen, in denen die Ableitungselemente (1, <s0O + 0>, "na"), (2, <s0O + 0>, <s0J + 0>, "sho"), (3, <s0O + 0>, <s0J + 0>, <j0O + 1>, "na") und (4, <d0O + 0>, "ra", "ri", "re", "ro") der Folge von Ableitungselementen in dieser Reihenfolge hinzugefügt werden, während die Zustandsübergänge (erster Zustand → zweiter Zustand → zweiter Zustand → vierter Zustand) ausgeführt werden, erfüllt die Folge von Ableitungselementen die Zustandsübergangstabelle, da eine Folge von Ableitungstypen <s0O + 0> <s0O + 0> <s0O + 0> <d0O + 0> aus der Folge von Ableitungselementen erzeugt werden kann (oder der Satz D nicht leer ist) und die Anzahl 4 in der Union K mit dem vierten Zustand als dem nachfolgenden Zustand enthalten ist. Daher wird in den Schritten S80 und S81 eine Vielzahl von Folgen von abgeleiteten Lauten "na-sho-na-ra", "na-sho-na-ri", "na-sho-na-re" und "na-sho-na-ro" erzeugt, eine Aussprachennummer 9 wird wiedergewonnen, und eine Markennummer "1101022" wird erhalten.
Nachdem alle sich auf die vierte Lautposition beziehenden Ableitungselemente in den Schritten S72 bis S79, S82 und S83 verwendet sind, werden sich auf die dritte Lautposition beziehende verbleibende Ableitungselemente in den Schritten S72 bis S79, S82 und S83 verwendet. Nachdem alle sich auf die dritte Lautposition beziehenden Ableitungselemente in den Schritten S72 bis S79, S82 und S83 verwendet sind, werden sich auf die zweite Lautposition beziehende verbleibende Ableitungselemente in den Schritten S72 bis S79, S82 und S83 verwendet. In Fällen, in denen die Ableitungselemente (1, <s0O + 0>, "na"), (2, <d0O + 0>, "sha", "shu"), (3, <s0O + 0>, <s0J + 0>, <j0O + 1>, "na") und (4, <s0O + 0>, <j0O + 1>, "ru") der Folge von Ableitungselementen in dieser Reihenfolge hinzugefügt werden, während die Zustandsübergänge (erster Zustand → zweiter Zustand → vierter Zustand → vierter Zustand) ausgeführt werden, erfüllt die Folge von Ableitungselementen die Zustandsübergangstabelle, da eine Folge von Ableitungstypen <s0O + 0> <d0O + 0> <s0O + 0> <s0O + 0> aus der Folge von Ableitungselementen erzeugt werden kann (oder der Satz D nicht leer ist) und die Anzahl 4 in der Union K mit dem vierten Zustand als dem nachfolgenden Zustand enthalten ist. Daher wird in den Schritten S80 und S81 eine Vielzahl von Folgen von abgeleiteten Lauten "na-sha-na-ru" und "na-shu-na-ru" erzeugt, eine Aussprachennummer 7 wird wiedergewonnen, und eine Markennummer "1113044" wird erhalten.
Nachdem alle sich auf die zweite Lautposition beziehenden Ableitungselemente in den Schritten S72 bis S79, S82 und S83 verwendet sind, werden sich auf die erste Lautposition beziehende verbleibende Ableitungselemente in den Schritten S72 bis S79, S82 und S83 verwendet. In Fällen, in denen die Ableitungselemente (1, <d0O + 0>, "ni"), (2, <s0O + 0>, <s0J + 0>, "sho"), (3, <s0O + 0>, <s0J + 0>, <j0O + 1>, "na") und (4, <s0O + 0>, <j0O + 1>, "ru") der Folge von Ableitungselementen in dieser Reihenfolge hinzugefügt werden, während die Zustandsübergänge (erster Zustand → vierter Zustand → vierter Zustand → vierter Zustand) ausgeführt werden, erfüllt die Folge von Ableitungselementen die Zustandsübergangstabelle, da eine Folge von Ableitungstypen <d0O + 0> <s0O + 0> <s0O + 0> <s0O + 0> aus der Folge von Ableitungselementen erzeugt werden kann (oder der Satz D nicht leer ist) und die Anzahl 4 in der Union K mit dem vierten Zustand als dem nachfolgenden Zustand enthalten ist. Daher wird in den Schritten S80 und S81 eine Vielzahl von abgeleiteten Lauten "ni-sho-na-ru", "ne-sho-na-ru" und "no-sho-na-ru" erzeugt, eine Aussprachennummer 14 wird wiedergewonnen, und zwei Markennummern "1101492" und "1106430" werden erhalten.
Nachdem alle sich auf die erste Lautposition beziehenden Ableitungselemente in den Schritten S72 bis S79, S82 und S83 verwendet sind, wird es in dem Schritt S82 beurteilt, daß die Anzahl N1 ist, nachdem die Anzahl N in dem Schritt S83 verringert wird, und die Prozedur geht zu einem Schritt S84 über. In dem Schritt S84 werden die in dem Schritt S81 in dem Wiedergewinnungsergebnisspeicherbereich gespeicherten Markennummern zu der Entfernungseinheit 37 gesendet, eine Vielzahl von überlappenden Markennummern wird in der Entfernungseinheit 37 zu einer Markennummer geändert, und eine Markennummer oder mehrere Markennummern ohne eine überlappende Markennummer werden als ein Ergebnis der Wiedergewinnung ausgegeben. Da in dem Schritt S81 die Markennummern "1100359", "1101022", "1101022", "1113044", "1101492" und "1106430" in dem Wiedergewinnungsergebnisspeicherbereich gespeichert werden, werden in der Entfernungseinheit 37 die überlappenden Markennummern "1101022" und "1101022" zu einer Markennummer "1101022" geändert, und die Markennummern "1100359", "1101022", "1113044", "1101492" und "1106430" werden von der Wiedergewinnungsvorrichtung 31 ausgegeben.
Entsprechend kann deswegen, weil eine Markennummer oder mehrere Markennummern, die einer Marke oder mehreren Marken entsprechen, unter Verwendung der Tabelle von Ableitungselementen und der Zustandsübergangstabelle, die von der Erweiterungsvorrichtung 11 ausgegeben werden, über die Speichereinheiten 115 und 117 aus der Markendatenbank 112 wiedergewonnen werden, ohne direkt eine Vielzahl von der Frageaussprachenzeichenfolge in der Aussprache ähnelnden erweiterten Aussprachenzeichenfolgen (oder ein Vielzahl von ähnlichen Aussprachenzeichenfolgen) zu verwenden, selbst dann, wenn Millionen von ähnlichen Aussprachenzeichenfolgen und Millionen von Marken vorhanden sind, die Wiedergewinnung der der Frageaussprachenzeichenfolge in der Aussprache ähnelnden Marken mit hoher Geschwindigkeit ausgeführt werden.
In der Zeichenfolgenwiedergewinnungsvorrichtung 31 werden eine Markennummer oder mehrere Markennummern, die einer Marke oder mehreren Marken entsprechen, als eine Zeichenfolge oder mehrere Zeichenfolgen (oder Namen) wiedergewonnen, um eine eingetragene Marke oder mehrere eingetragene Marken wiederzugewinnen, die einer abgefragten Marke ähneln. Die Zeichenfolgenwiedergewinnungsvorrichtung 31 kann jedoch allgemein zur Wiedergewinnung einer Zeichenfolge oder mehrerer Zeichenfolgen, die einer abgefragten Zeichenfolge ähneln, angewendet werden. Selbst wenn Namen wie beispielsweise organische Verbindungen, Ortsnamen, Personennamen, Namen von Büchern oder dergleichen in einer Datenbank registriert sind, können zum Beispiel ein Name oder mehrere Namen, die einer abgefragten Zeichenfolge ähneln, unter Verwendung der Erweiterungsvorrichtung 11 und der Wiedergewinnungsvorrichtung 31 mit hoher Geschwindigkeit erhalten werden.
Während die Prinzipien der Erfindung in einem bevorzugten Ausführungsbeispiel davon veranschaulicht und beschrieben sind, sollte es für den Fachmann leicht ersichtlich sein, daß die Erfindung im Aufbau und in Einzelheiten modifiziert werden kann, ohne von derartigen Prinzipien abzuweichen. Es werden alle in den Rahmen des Inhalts und Schutzbereichs der beigefügten Patentansprüche fallenden Modifikationen beansprucht.
In einer Vorrichtung zur Erweiterung ähnlicher Zeichenfolgen werden eine Tabelle von Ableitungselementen und eine Zustandsübergangstabelle, die anwendbare Folgen von Ableitungstypen angeben, gemäß Aussprachenerweiterungsregeln erzeugt. Jedes der Ableitungselemente besteht aus einem an einer Schlüsselposition einer Frageaussprachenzeichenfolge plazierten Schlüssellaut abgeleiteten Laut, einer Lautposition des abgeleiteten Lauts in jeder von aus der Frageaussprachenzeichenfolge erweiterten Zeichenfolgen und einem Ableitungstyp oder mehreren Ableitungstypen, die angeben, wie der an der Lautposition plazierte abgeleitete Laut aus dem an der Schlüsselposition plazierten Schlüssellaut abgeleitet wird. In einer Zeichenfolgenwiedergewinnungsvorrichtung werden Folgen von Ableitungstypen eine nach der anderen erzeugt, indem Ableitungstypen der Tabelle von Ableitungselementen in der Reihenfolge der Lautposition angeordnet werden, und es wird beurteilt, ob jede der Folgen von Ableitungstypen mit einer der anwendbaren Folgen übereinstimmt oder nicht, um zu beurteilen, ob jede der Folgen von Ableitungstypen die Aussprachenerweiterungsregeln erfüllt oder nicht. Danach werden den Aussprachenerweiterungsregeln erfüllenden Folgen von Ableitungstypen entsprechende Markennummern wiedergewonnen. Da keine der Frageaussprachenzeichenfolge in der Aussprache ähnelnden Zeichenfolgen direkt verwendet werden, können daher die der Frageaussprachenzeichenfolge ähnelnden Marken angebende Markennummern mit hoher Geschwindigkeit wiedergewonnen werden.

Claims

Verfahren zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen zum Wiedergewinnen einer registrierten Zeichenfolge oder mehrerer registrierter Zeichenfolgen, die in der Aussprache einer Frageaussprachenzeichenfolge ähneln, gemäß einem Aussprachenähnlichkeitskriterium oder mehreren Aussprachenähnlichkeitskriterien, mit den Schritten: Vorbereiten einer Tabelle ähnlicher Laute oder mehrerer Tabellen ähnlicher Laute gemäß den Aussprachenähnlichkeitskriterien, wobei jede der Tabellen ähnlicher Laute einen ähnlichen Laut oder mehrere ähnliche Laute, die in der Aussprache einem Schlüssellaut ähneln, für jeden Schlüssellaut einer Vielzahl von Schlüssellauten angibt; Vorbereiten eines regulären Ausdrucks und eines anwendbaren Bereichs gemäß jedem der Aussprachenähnlichkeitskriterien, wobei jeder der regulären Ausdrücke eine Folge oder mehrere Folgen von Ableitungstypen angibt, wobei jeder der Ableitungstypen angibt, wie jeder abgeleitete Laut einer Vielzahl von an Positionen einer erweiterten Aussprachenzeichenfolge plazierten abgeleiteten Lauten von einem an einer angemerkten Position einer angemerkten Aussprachenzeichenfolge plazierten angemerkten Laut abgeleitet wird, und die Anzahl von Lauten in der angemerkten Aussprachenzeichenfolge sich in einem entsprechenden anwendbaren Bereich befindet; Empfangen einer Frageaussprachenzeichenfolge; Erzeugen eines Satzes von Ableitungselementen für die Frageaussprachenzeichenfolge gemäß den Tabellen ähnlicher Laute, den anwendbaren Bereichen und den regulären Ausdrücken entsprechend den Aussprachenähnlichkeitskriterien, wobei jedes der Ableitungselemente in dem Satz aus einem von einem Laut einer Vielzahl von Lauten in der Frageaussprachenzeichenfolge abgeleiteten abgeleiteten Laut, einer Lautposition des abgeleiteten Lauts in jeder erweiterten Aussprachenzeichenfolge von einer erweiterten Aussprachenzeichenfolge oder mehreren erweiterten Aussprachenzeichenfolgen, die aus der Frageaussprachenzeichenfolge erweitert werden, und einem zum Ableiten des abgeleiteten Lauts an der Lautposition jeder erweiterten Aussprachenzeichenfolge verwendeten Ableitungstyp besteht und die Ableitungstypen der Ableitungselemente aus den durch jeden der vorbereiteten regulären Ausdrücke angegebenen Folgen von Ableitungstypen extrahiert werden; Auswählen eines speziellen regulären Ausdrucks oder mehrerer spezieller regulärer Ausdrücke aus den regulären Ausdrücken, wobei die Anzahl von Lauten in der Frageaussprachenzeichenfolge sich in jedem anwendbaren Bereich von einem anwendbaren Bereich oder mehreren anwendbaren Bereichen entsprechend den speziellen regulären Ausdrücken befindet; Bestimmen einer die Anzahl von Lauten in jeder erweiterten Aussprachenzeichenfolge von einer erweiterten Aussprachenzeichenfolge oder mehreren erweiterten Aussprachenzeichenfolgen, die gemäß einem speziellen regulären Ausdruck aus der Frageaussprachenzeichenfolge erweitert werden, angebenden anwendbaren Lautanzahl unter Verwendung der Frageaussprachenzeichenfolge und des speziellen regulären Ausdrucks; Erzeugen einer Gruppe von einer Vielzahl von Regulärer-Ausdruck-Elementen, die jeweils aus einem speziellen regulären Ausdruck und einer dem speziellen regulären Ausdruck entsprechenden anwendbaren Lautanzahl bestehen; Erzeugen eines eine Gruppe oder mehrere Gruppen von anwendbaren Folgen von Ableitungstypen und eine anwendbare Lautanzahl oder mehrere anwendbare Lautanzahlen aus der Gruppe von Regulärer-Ausdruck-Elementen angebenden finiten Zustandsautomaten, wobei jede Gruppe von anwendbaren Folgen von Ableitungstypen gemäß einem speziellen regulären Ausdruck eines Regulärer-Ausdruck-Elements angegeben wird und jede der anwendbaren Lautanzahlen die Grenze für eine Zeichenfolge oder mehrere Zeichenfolgen, die aus den anwendbaren Folgen von Ableitungstypen in einer entsprechenden Gruppe abgeleitet werden, bezeichnet; Erzeugen einer Vielzahl von möglichen Folgen von Ableitungstypen, die jeweils durch ein Anordnen eines Ableitungstyps oder mehrerer Ableitungstypen von einem Ableitungselement oder mehreren Ableitungselementen, die aus dem Satz von Ableitungselementen extrahiert werden, in der Reihenfolge der Lautposition erhalten werden; Beurteilen, ob jede der möglichen Folgen von Ableitungstypen mit einer der anwendbaren Folgen von Ableitungstypen in den Gruppen übereinstimmt oder nicht; Extrahieren einer möglichen Folge oder mehrerer möglicher Folgen von Ableitungstypen, die jeweils mit einer der anwendbaren Folgen von Ableitungstypen übereinstimmen, als eine wahrscheinliche Folge oder mehrere wahrscheinliche Folgen von Ableitungstypen; Beurteilen, ob jede von wahrscheinlichen Zeichenfolgen, die jeweils durch ein Anordnen eines abgeleiteten Lauts oder mehrerer abgeleiteter Laute, die sich auf einen Ableitungstyp oder mehrere Ableitungstypen einer wahrscheinlichen Folge beziehen, in der Reihenfolge der Lautposition erhalten werden, eine entsprechende anwendbare Lautanzahl erfüllt oder nicht; Extrahieren einer wahrscheinlichen Folge oder mehrerer wahrscheinlicher Folgen von Ableitungstypen, die einer wahrscheinlichen Zeichenfolge oder mehreren wahrscheinlichen Zeichenfolgen entsprechen, die jeweils die entsprechende anwendbare Lautanzahl erfüllen, als eine bestimmte Folge oder mehrere bestimmte Folgen von Ableitungstypen; Anordnen eines abgeleiteten Lauts oder mehrerer abgeleiteter Laute entsprechend einem Ableitungstyp oder mehreren Ableitungstypen jeder bestimmten Folge in der Reihenfolge der Lautposition zum Erzeugen einer bestimmten Zeichenfolge oder mehrerer bestimmter Zeichenfolgen für die bestimmten Folgen; und Wiedergewinnen einer Zeichenfolge oder mehrerer Zeichenfolgen, die jeweils mit einer der bestimmten Zeichenfolgen übereinstimmen und in einer Datenbank registriert sind, aus der Datenbank als die registrierten Zeichenfolgen.
Verfahren zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 1, bei dem der Schritt des Vorbereitens eines regulären Ausdrucks und eines anwendbaren Bereichs den Schritt umfaßt: Bilden jedes der Ableitungstypen aus einem eine der Tabellen ähnlicher Laute identifizierenden ersten Symbol, einem eine Positionsdifferenz zwischen einer angemerkten Position eines in der angemerkten Aussprachenzeichenfolge plazierten angemerkten Lauts und einer abgeleiteten Position eines abgeleiteten Lauts, der unter Verwendung des angemerkten Lauts als einen Schlüssellaut in der durch das erste Symbol identifizierten Tabelle ähnlicher Laute nachgeschlagen wird und in der erweiterten Aussprachenzeichenfolge plaziert wird, spezifizierenden zweiten Symbol und einem eine Ableitungsbeschränkung für den angemerkten Laut angebenden dritten Symbol.
Verfahren zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 2, bei dem der Schritt des Erzeugens eines Satzes von Ableitungselementen die Schritte umfaßt: Extrahieren eines Ableitungstyps aus einer durch einen der regulären Ausdrücke angegebenen Folge von Ableitungstypen; Auswählen eines angemerkten Lauts aus einer Vielzahl von Lauten in der Frageaussprachenzeichenfolge; Beurteilen, ob der angemerkte Laut eine Ableitungsbeschränkung des Ableitungstyps erfüllt oder nicht; Bestimmen einer Lautposition gemäß einer angemerkten Position des angemerkten Lauts in der Frageaussprachenzeichenfolge und einer Positionsdifferenz des Ableitungstyps in Fällen, in denen der angemerkte Laut die Ableitungsbeschränkung erfüllt; Nachschlagen eines ähnlichen Lauts oder mehrerer ähnlicher Laute in einer durch ein identifizierendes Symbol des Ableitungstyps identifizierten Tabelle ähnlicher Laute unter Verwendung des angemerkten Lauts als einen Schlüssellaut; Bestimmen jedes der ähnlichen Laute als einen abgeleiteten Laut in Fällen, in denen der angemerkte Laut die Ableitungsbeschränkung erfüllt; Erzeugen eines aus der Lautposition, dem Ableitungstyp und dem abgeleiteten Laut bestehenden Ableitungselements; und Registrieren des Ableitungselements in dem Satz von Ableitungselementen.
Verfahren zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 1, bei dem der Schritt des Vorbereitens einer Tabelle ähnlicher Laute oder mehrerer Tabellen ähnlicher Laute die Schritte umfaßt: Vorbereiten einer Tabelle gleicher Laute, die einen Laut, der gleich einem Schlüssellaut ist, als einen ähnlichen Laut für jeden der Schlüssellaute angibt; Vorbereiten einer Tabelle schwacher Laute, die einen schwachen Laut oder mehrere schwache Laute, die gleich einem Schlüssellaut sind oder diesem ähneln, als einen ähnlichen Laut oder mehrere ähnliche Laute für jeden der Schlüssellaute angibt; Vorbereiten einer Tabelle schwacher verschiedener Laute, die einen schwachen Laut oder mehrere schwache Laute, die in der Aussprache einem Schlüssellaut ähneln, als einen ähnlichen Laut oder mehrere ähnliche Laute für jeden der Schlüssellaute angibt; und Vorbereiten einer Tabelle von Lauten der gleichen Zeile, die eine Vielzahl von Lauten, die in der gleichen Zeile wie der eines Schlüssellauts plaziert sind, als eine Vielzahl von ähnlichen Lauten für jeden der Schlüssellaute angibt.
Verfahren zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 2, bei dem der Schritt des Bildens jedes der Ableitungstypen den Schritt umfaßt: Beurteilen, ob ein angemerkter Laut in der Frageaussprachenzeichenfolge eine Ableitungsbeschränkung eines Ableitungstyps erfüllt oder nicht, gemäß einer Vielzahl von Lauten in der Frageaussprachenzeichenfolge ohne Rücksicht auf eine erweiterte Aussprachenzeichenfolge.
Verfahren zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 1, bei dem der Schritt des Wiedergewinnens einer Zeichenfolge oder mehrerer Zeichenfolgen die Schritte umfaßt: Vorbereiten der Datenbank, in der eine Vielzahl von jeweils einer Zeichenfolgennummer entsprechenden Zeichenfolgen gespeichert werden; Anhängen einer Aussprachennummer an jede der in der Datenbank in einer Wiedergewinnungsstrukturform gespeicherten Zeichenfolgen; jede der Aussprachennummern mit einer Zeichenfolgennummer oder mehreren Zeichenfolgennummern in Beziehung bringen; Auswählen einer speziellen Aussprachennummer oder mehrerer spezieller Aussprachennummern, die an eine Zeichenfolge oder mehrere Zeichenfolgen angehängt sind, die jeweils mit einer der bestimmten Zeichenfolgen übereinstimmen und in der Datenbank gespeichert sind, aus den Aussprachennummern; Auswählen einer speziellen Zeichenfolgennummer oder mehrerer spezieller Zeichenfolgennummern, die sich auf die speziellen Aussprachennummern beziehen; Einstellen einer Vielzahl von speziellen Zeichenfolgennummern, die miteinander überlappen, auf eine Zeichenfolgennummer; und Ausgeben der speziellen Zeichenfolgennummern, die nicht miteinander überlappen und den bestimmten Zeichenfolgen entsprechen.
Verfahren zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 1, bei dem der Schritt des Erzeugens einer Vielzahl von möglichen Folgen die Schritte umfaßt: Auswählen eines speziellen Ableitungselements aus einem Ableitungselement oder mehreren Ableitungselementen entsprechend jeder der Lautpositionen; Anordnen eines speziellen Ableitungstyps oder mehrerer spezieller Ableitungstypen eines speziellen Ableitungselements oder mehrerer spezieller Ableitungselemente, während die speziellen Ableitungstypen einer nach dem anderen in der Reihenfolge der Lautposition hinzugefügt werden, bis ein einer maximalen Lautposition entsprechender spezieller Ableitungstyp angeordnet ist; Erzeugen einer möglichen Folge von Ableitungstypen jedes Mal, wenn ein spezieller Ableitungstyp angeordnet wird; Ersetzen eines letzten speziellen Ableitungstyps, der zuletzt angeordnet wird und der maximalen Lautposition entspricht, durch einen der maximalen Lautposition entsprechenden anderen Ableitungstyp, um jedes Mal eine andere mögliche Folge von Ableitungstypen zu erzeugen, wenn der letzte spezielle Ableitungstyp durch einen anderen Ableitungstyp ersetzt wird; Verringern der maximalen Lautposition um eins jedes Mal, wenn alle der maximalen Lautposition entsprechenden Ableitungstypen zum Erzeugen einer möglichen Folge oder mehrerer möglicher Folgen von Ableitungstypen angeordnet sind; Hinzufügen eines der neu definierten maximalen Lautposition entsprechenden anderen speziellen Ableitungstyps zum Erzeugen einer anderen möglichen Folge von Ableitungstypen; und Stoppen der Erzeugung der möglichen Folgen von Ableitungstypen, wenn alle einer ersten Lautposition entsprechenden Ableitungstypen angeordnet sind, um eine mögliche Folge oder mehrere mögliche Folgen von Ableitungstypen zu erzeugen.
Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen zum Wiedergewinnen einer registrierten Zeichenfolge oder mehrerer registrierter Zeichenfolgen, die in der Aussprache einer Frageaussprachenzeichenfolge ähneln, gemäß einem Aussprachenähnlichkeitskriterium oder mehreren Aussprachenähnlichkeitskriterien, mit: einer Tabelle-ähnlicher-Laute-Speichereinrichtung (16) zum Speichern einer Tabelle ähnlicher Laute oder mehrerer Tabellen ähnlicher Laute, die gemäß einer Vielzahl von Aussprachenähnlichkeitskriterien vorbereitet werden, wobei jede der Tabellen ähnlicher Laute einen ähnlichen Laut oder mehrere ähnliche Laute, die in der Aussprache einem Schlüssellaut ähneln, für jeden Schlüssellaut einer Vielzahl von Schlüssellauten angibt; einer Regulärer-Ausdruck-Speichereinrichtung (17) zum Speichern einer Vielzahl von jeweils aus einem regulären Ausdruck und einem anwendbaren Bereich, die gemäß jedem der Aussprachenähnlichkeitskriterien vorbereitet werden, bestehenden Sätzen, wobei jeder der regulären Ausdrücke eine Folge oder mehrere Folgen von Ableitungstypen angibt, wobei jeder der Ableitungstypen angibt, wie jeder abgeleitete Laut einer Vielzahl von an Positionen einer erweiterten Aussprachenzeichenfolge plazierten abgeleiteten Lauten von einem an einer angemerkten Position einer angemerkten Aussprachenzeichenfolge plazierten angemerkten Laut abgeleitet wird, und die Anzahl von Lauten in der angemerkten Aussprachenzeichenfolge sich in einem entsprechenden anwendbaren Bereich befindet; einer Frageaussprachenzeichenfolgenempfangseinrichtung (12) zum Empfangen einer Frageaussprachenzeichenfolge; einer Ableitungselementerzeugungseinrichtung (18) zum Erzeugen eines Satzes von Ableitungselementen für die durch die Frageaussprachenzeichenfolgenempfangseinrichtung (12) empfangene Frageaussprachenzeichenfolge gemäß den in der Tabelle-ähnlicher-Laute-Speichereinrichtung (16) gespeicherten Tabellen ähnlicher Laute und den in der Regulärer-Ausdruck-Speichereinrichtung (17) gespeicherten regulären Ausdrücken, Auswählen eines speziellen regulären Ausdrucks oder mehrerer spezieller regulärer Ausdrücke aus den in der Regulärer-Ausdruck-Speichereinrichtung (17) gespeicherten regulären Ausdrücken unter der Bedingung, daß die Anzahl von Lauten in der Frageaussprachenzeichenfolge sich in jedem anwendbaren Bereich von einem anwendbaren Bereich oder mehreren anwendbaren Bereichen entsprechend den speziellen regulären Ausdrücken befindet, Bestimmen einer die Anzahl von Lauten in jeder erweiterten Aussprachenzeichenfolge von einer erweiterten Aussprachenzeichenfolge oder mehreren erweiterten Aussprachenzeichenfolgen, die gemäß einem speziellen regulären Ausdruck aus der empfangenen Frageaussprachenzeichenfolge erweitert werden, angebenden anwendbaren Lautanzahl unter Verwendung der durch die Frageaussprachenzeichenfolgenempfangseinrichtung (12) empfangenen Frageaussprachenzeichenfolge und des speziellen regulären Ausdrucks, Erzeugen einer Gruppe von einer Vielzahl von Regulärer-Ausdruck-Elementen, die jeweils aus einem speziellen regulären Ausdruck und einer dem speziellen regulären Ausdruck entsprechenden anwendbaren Lautanzahl bestehen, wobei jedes der Ableitungselemente in dem Satz aus einem aus einem Laut einer Vielzahl von Lauten in der Frageaussprachenzeichenfolge abgeleiteten abgeleiteten Laut, einer Lautposition des abgeleiteten Lauts in jeder erweiterten Aussprachenzeichenfolge von einer erweiterten Aussprachenzeichenfolge oder mehreren erweiterten Aussprachenzeichenfolgen, die aus der Frageaussprachenzeichenfolge erweitert werden, und einem zum Ableiten des abgeleiteten Lauts an der Lautposition jeder erweiterten Aussprachenzeichenfolge verwendeten Ableitungstyp besteht und die Ableitungstypen der Ableitungselemente aus den durch die regulären Ausdrücke angegebenen Folgen von Ableitungstypen extrahiert werden; einer Finiter-Zustandsautomat-Erzeugungseinrichtung (19) zum Erzeugen eines eine anwendbare Folge oder mehrere anwendbare Folgen von Ableitungstypen aus dem durch die Ableitungselementerzeugungseinrichtung (18) erzeugten Satz von regulären Ausdrücken angebenden finiten Zustandsautomaten, wobei jede anwendbare Folge von Ableitungstypen durch einen speziellen regulären Ausdruck eines Regulärer-Ausdruck-Elements unter der Bedingung angegeben wird, daß die Anzahl von Lauten in einer gemäß der anwendbaren Folge von Ableitungstypen aus der Frageaussprachenzeichenfolge erweiterten erweiterten Aussprachenzeichenfolge mit einer anwendbaren Lautanzahl des Regulärer-Ausdruck-Elements übereinstimmt; einer Ableitungstypfolgenerzeugungseinrichtung (34) zum Erzeugen einer Vielzahl von möglichen Folgen von Ableitungstypen, die jeweils durch ein Anordnen eines Ableitungstyps oder mehrerer Ableitungstypen von einem Ableitungselement oder mehreren Ableitungselementen, die aus dem durch die Ableitungselementerzeugungseinrichtung (18) erzeugten Satz von Ableitungselementen extrahiert werden, in der Reihenfolge der Lautposition erhalten werden; einer Ableitungstypfolgenbeurteilungseinrichtung (35) zum Beurteilen, ob jede der durch die Ableitungstypfolgenerzeugungseinrichtung (34) erzeugten möglichen Folgen von Ableitungstypen mit einer der anwendbaren Folgen von Ableitungstypen in den Gruppen, die durch den durch die Finiter-Zustandsautomat-Erzeugungseinrichtung (19) erzeugten finiten Zustandsautomaten angegeben werden, übereinstimmt oder nicht, Extrahieren einer möglichen Folge oder mehrerer möglicher Folgen von Ableitungstypen, die jeweils mit einer der anwendbaren Folgen von Ableitungstypen übereinstimmen, als eine wahrscheinliche Folge oder mehrere wahrscheinliche Folgen von Ableitungstypen, Beurteilen, ob jede von wahrscheinlichen Zeichenfolgen, die jeweils durch ein Anordnen eines abgeleiteten Lauts oder mehrerer abgeleiteter Laute, die sich auf einen Ableitungstyp oder mehrere Ableitungstypen einer wahrscheinlichen Folge beziehen, in der Reihenfolge der Lautposition erhalten werden, eine entsprechende anwendbare Lautanzahl, die durch den in der Finiter-Zustandsautomat-Speichereinrichtung (33) gespeicherten finiten Zustandsautomaten angegeben werden, erfüllt oder nicht, und Extrahieren einer wahrscheinlichen Folge oder mehrerer wahrscheinlicher Folgen von Ableitungstypen, die einer wahrscheinlichen Zeichenfolge oder mehreren wahrscheinlichen Zeichenfolgen entsprechen, die jeweils die entsprechende anwendbare Lautanzahl erfüllen, als eine bestimmte Folge oder mehrere bestimmte Folgen von Ableitungstypen; und einer Zeichenfolgenwiedergewinnungseinrichtung (36, 37, 115, 117) zum Anordnen eines abgeleiteten Lauts oder mehrerer abgeleiteter Laute entsprechend einem Ableitungstyp oder mehreren Ableitungstypen jeder durch die Ableitungstypfolgenbeurteilungseinrichtung (35) extrahierten bestimmten Folge in der Reihenfolge der Lautposition zum Erzeugen einer bestimmten Zeichenfolge oder mehrerer bestimmter Zeichenfolgen für die bestimmten Folgen, und Wiedergewinnen einer Zeichenfolge oder mehrerer Zeichenfolgen, die jeweils mit einer der bestimmten Zeichenfolgen übereinstimmen und in einer Datenbank registriert sind, aus der Datenbank als die registrierten Zeichenfolgen.
Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 8, bei der jeder der in der Regulärer-Ausdruck-Speichereinrichtung (17) gespeicherten Ableitungstypen aus einem eine der Tabellen ähnlicher Laute identifizierenden ersten Symbol, einem eine Positionsdifferenz zwischen einer angemerkten Position eines in der angemerkten Aussprachenzeichenfolge plazierten angemerkten Lauts und einer abgeleiteten Position eines abgeleiteten Lauts, der unter Verwendung des angemerkten Lauts als einen Schlüssellaut in der durch das erste Symbol identifizierten Tabelle ähnlicher Laute nachgeschlagen wird und in der erweiterten Aussprachenzeichenfolge plaziert wird, spezifizierenden zweiten Symbol und einem eine Ableitungsbeschränkung für den angemerkten Laut angebenden dritten Symbol besteht.
Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 8, bei der die in der Tabelle-ähnlicher-Laute-Speichereinrichtung (16) gespeicherten Tabellen ähnlicher Laute in eine Tabelle gleicher Laute, die einen Laut, der gleich einem Schlüssellaut ist, als einen ähnlichen Laut für jeden der Schlüssellaute angibt, eine Tabelle schwacher Laute, die einen schwachen Laut oder mehrere schwache Laute, die gleich einem Schlüssellaut sind oder diesem ähneln, als einen ähnlichen Laut oder mehrere ähnliche Laute für jeden der Schlüssellaute angibt, eine Tabelle schwacher verschiedener Laute, die einen schwachen Laut oder mehrere schwache Laute, die in der Aussprache einem Schlüssellaut ähneln, als einen ähnlichen Laut oder mehrere ähnliche Laute für jeden der Schlüssellaute angibt, und eine Tabelle von Lauten der gleichen Zeile, die eine Vielzahl von Lauten, die in der gleichen Zeile wie der eines Schlüssellauts plaziert sind, als eine Vielzahl von ähnlichen Lauten für jeden der Schlüssellaute angibt, klassifiziert sind.
Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 9, bei der die Beurteilung, ob ein angemerkter Laut in der Frageaussprachenzeichenfolge eine Ableitungsbeschränkung eines Ableitungstyps erfüllt oder nicht, gemäß einer Vielzahl von Lauten in der Frageaussprachenzeichenfolge ohne Rücksicht auf eine erweiterte Aussprachenzeichenfolge ausgeführt wird.
Vorrichtung zur Erweiterung und Wiedergewinnung ähnlicher Zeichenfolgen nach Anspruch 8, bei der die Zeichenfolgenwiedergewinnungseinrichtung (36, 37, 115, 117) umfaßt: eine Aussprachenindexspeichereinrichtung (117) zum Speichern eines Aussprachenindex, bei dem eine Aussprachennummer an jede der in der Datenbank in einer Wiedergewinnungsstrukturform gespeicherten Zeichenfolgen angehängt ist; eine Zeichenfolgennummernlistenspeichereinrichtung (115) zum Speichern einer Zeichenfolgennummernliste, in der eine Vielzahl von den in der Datenbank gespeicherten Zeichenfolgen entsprechenden Zeichenfolgennummern zu einer Vielzahl von Aussprachennummern in Beziehung gebracht wird; eine Zeichenfolgennummernwiedergewinnungseinrichtung (36) zum Wiedergewinnen einer speziellen Aussprachennummer oder mehrerer spezieller Aussprachennummern, die an die bestimmten Zeichenfolgen angehängt sind, aus dem in der Aussprachenindexspeichereinrichtung (117) gespeicherten Aussprachenindex und Wiedergewinnen einer speziellen Zeichenfolgennummer oder mehrerer spezieller Zeichenfolgennummern, die sich auf die speziellen Aussprachennummern beziehen, aus der in der Zeichenfolgennummernlistenspeichereinrichtung (115) gespeicherten Zeichenfolgennummernliste; und eine Überlappende-Zeichenfolgennummern-Entfernungseinrichtung (37) zum Entfernen einer Vielzahl von miteinander überlappenden speziellen Zeichenfolgennummern durch ein Einstellen der miteinander überlappenden speziellen Zeichenfolgennummern auf eine spezielle Zeichenfolgennummer und Ausgeben der speziellen Zeichenfolgennummern, die nicht miteinander überlappen und den bestimmten Zeichenfolgen entsprechen.