JP7105500B2 - コンピュータによって実行される文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法 - Google Patents

コンピュータによって実行される文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法 Download PDF

Info

Publication number
JP7105500B2
JP7105500B2 JP2020148638A JP2020148638A JP7105500B2 JP 7105500 B2 JP7105500 B2 JP 7105500B2 JP 2020148638 A JP2020148638 A JP 2020148638A JP 2020148638 A JP2020148638 A JP 2020148638A JP 7105500 B2 JP7105500 B2 JP 7105500B2
Authority
JP
Japan
Prior art keywords
character
character code
code
deletable
exclusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020148638A
Other languages
English (en)
Other versions
JP2021082252A (ja
Inventor
林志青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Integral Search International Ltd
Original Assignee
Integral Search International Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Integral Search International Ltd filed Critical Integral Search International Ltd
Publication of JP2021082252A publication Critical patent/JP2021082252A/ja
Application granted granted Critical
Publication of JP7105500B2 publication Critical patent/JP7105500B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法に関するものであって、特に、文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法に関する。
特許の明細書というのは、複雑で読みにくいものである。人工知能によって特許請求項における要素名詞を識別するのは、人工知能特許閲読補助システムの礎である。要素名詞とは、特許請求項において要素を構成する定義文字であり、その要素名詞が名詞だけではなく、名詞文字が最終文字として、形容詞、動詞、副詞や名詞を含んで構成する定義文字であり、例えば、「受信アンテナ」、「信号発送手段」などがある。特許請求項の要素名詞を獲得することでその要素名詞の所属位置を獲得できるので、その要素名詞に対応する動作特徴、接続関係や位置関係の対応位置をより明確に獲得でき、特許の閲読者へ明確に補助して、その特許請求項の技術特徴をより明白に理解させることができる。
しかしながら、例えば、中国語、日本語、韓国語などのアジア言語である文字間スペースなし言語文字について、文字と文字の間にはスペースが存在しないので、英語に比べて、前記文字間スペースなし言語文字の文字と文字の間の組合せを識別することが難しくて、各種の組合った言葉を認識するのが難しいこともある。この場合では、自然言語の品詞の解析を実現するのは困難なことである。要素名詞データベースの方法を確立して品詞によって要素名詞の識別を行う方法が提案されるが、特許請求項の要素名詞は色んな変化があるので、膨大な要素名詞データベースの立ち上げが不可能であり、動詞、名詞、形容詞、副詞などの誤判がよくある。また、膨大な要素名詞データベースを立ち上げることが可能であっても、そのような膨大なデータベースの資料比較工程を行うことは、膨大な時間をかかるので、実施するのが難しくなる。
このため、請求の範囲の要素名詞を、如何に高効率で正確に自動的に獲得する方法、即ち、要素名詞データベースの方法に頼らず、且つ、品詞で要素名詞の判断を行わずに、特許請求項のフォーマットおよび特性により、膨大なシステム計算およびストレージをかけずに、効率な最高獲得数、最高正確度、最速獲得速度の方法が求められている。
このため、本発明は上記の課題に鑑みてなされたもので、要素名詞データベースの立ち上げ、且つ、品詞での要素名詞の判断の代わりに、要素名詞の存在不可能の文字位置を順を追って排除することで要素名詞を獲得し、数が多く、成功確率が高く、且つ最速の獲得速度で特許請求の範囲の要素名詞及び要素名詞所属位置を効率的に獲得できる文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供することを目的とする。
本発明が従来の技術問題を解決するために用いる技術手段は、コンピュータを用いて中国語文字からなる中国語文字の特許請求の範囲の文字に対して前記中国語文字の特許請求の範囲に所属する各要素名詞文字コードを自動的に獲得して自動獲得要素名詞とし、コンピュータによって実行される、コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法であって、コンピュータによって、中国語文字の特許請求の範囲の文字コードを自動的に読み取って前記中国語文字の特許請求の範囲の文字とし、基本排除文字データベースにおいて冠詞文字コード、単位データベース文字コード、フォーム字文字コード、慣用字文字コードを含む複数の基本排除文字コードを複数の基本排除文字とすることに基いて、前記中国語文字の特許請求の範囲の文字コードから、複数の前記基本排除文字コードを排除するように記録して、前記中国語文字の特許請求の範囲の文字コードにおける前記基本排除文字コードが排除された連続文字コードを基本排除文字連続文字コードとする、基本排除文字記録排除工程と、コンピュータによって、複数の基本排除文字連続文字コードを自動的に読取って基本排除文字連続文字とし、前記基本排除文字連続文字コードと前記基本排除文字連続文字の前の排除と記録された前記基本排除文字コードの間の文字コード相隣文字関係に基き、前記基本排除文字連続文字コードと前記基本排除文字連続文字の後の排除と記録された前記基本排除文字コードの間の慣用字文字コード、動詞文字コード、副詞文字コード、設置詞文字コードを含む文字コード相隣文字関係に基いて、前記基本排除文字連続文字コードから、削除可能文字コードを削除可能文字として排除するように記録し、前記基本排除文字連続文字コードから、前記削除可能文字コートが排除されて削除可能文字削除連続文字コードを獲得して削除可能文字削除連続文字とする、削除可能文字記録排除工程と、コンピュータによって、複数の前記削除可能文字削除連続文字コードを自動的に読取って複数の前記削除可能文字削除連続文字とし、単一文字排除文字コードを前記削除可能文字削除連続文字コードから排除するように記録して、前記削除可能文字削除連続文字コードから、前記単一文字排除文字コードが排除されて初歩要素名詞文字コードを獲得して初歩要素名詞とする、単一文字記録排除工程と、コンピュータによって、複数の前記初歩要素名詞文字コードを自動的に読取って複数の初歩要素名詞文字とし、前記初歩要素名詞文字コードの前一つ文字が不定冠詞文字コードである前記初歩要素名詞文字コードを前字不定冠詞初歩要素名詞文字コードとし、かつ前記初歩要素名詞文字コードの前一つ文字が定冠詞であるもう一つの初歩要素名詞文字コードを前字定冠詞初歩要素名詞文字コードとし、前記前字不定冠詞初歩要素名詞文字コードを前から後への順序で前記前字定冠詞初歩要素名詞文字コードと比較し、前記前字定冠詞初歩要素名詞文字コードに対して前記前字不定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞コードを獲得し、且つ、前記前字不定冠詞初歩要素名詞文字コードに対して前記前字定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞文字コードを獲得して獲得要素名詞文字とする、高度排除文字記録排除工程と、を含むことを特徴とするコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明の1つの実施例では、前記削除可能文字記録排除工程が首部文字記録排除工程を有し、前記首部文字記録排除工程がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字文字コードである削除可能識別文字コードに基づいて:各前記基本排除文字連続文字コードの起始文字コードや起始連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード後の指定文字数の文字コードを首部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの起始文字コードの相隣前文字コードや相隣前連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記起始文字コード後の指定文字数の文字コードを首部削除文字として排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記首部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とする上述のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明の1つの実施例では、前記削除可能文字記録排除工程が尾部文字記録排除工程を更に有し、前記尾部文字記録排除装置がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字コードである削除可能識別文字コードに基づいて:各前記基本排除文字連続文字コードの末文字や末連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの末文字コードの相隣後文字コードや相隣後連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記末文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記尾部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とする上述のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明の1つの実施例では、前記高度排除文字記録排除工程が更に高度排除慣用字コードによって各前記初歩要素名詞コードから前記高度排除慣用字コードを排除するように記録し、前記初歩要素名詞文字コードにおける前記高度排除文字コードが排除された連続文字コードを前記獲得要素名詞文字コードとすることを特徴とする上述のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明の1つの実施例では、各獲得要素名詞文字コード、各獲得要素名詞文字コードの獲得要素名詞所属位置コード、句読点文字コードおよび改行符号文字コードに基いて、前記中国語文字の特許請求の範囲の構造を得ることを特徴とする上述のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明が従来の技術問題を解決するために用いるもう一つの技術手段は、コンピュータを用いて中国語文字からなる中国語文字の特許請求の範囲の文字に対して前記中国語文字の特許請求の範囲に所属する各要素名詞文字コードを自動的に獲得して自動獲得要素名詞とし、コンピュータによって実行される、コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法であって、コンピュータによって、中国語文字の特許請求の範囲の文字コードを自動的に読み取って前記中国語文字の特許請求の範囲の文字とし、要素名詞対照表における要素対照表要素名詞文字コードに基いて、前記中国語文字の特許請求の範囲の文字コードから、前記要素対照表要素名詞文字コードを排除するように記録し、前記中国語文字の特許請求の範囲の文字コードにおける前記要素対照表要素名詞文字コードが排除された連続文字コードを要素対照表要素名詞排除連続文字コードとする、要素対照表要素名詞記録排除工程と、コンピュータによって、前記要素対照表要素名詞排除連続文字コードを自動的に読み取り、基本排除文字データベースにおいて冠詞文字コード、単位データベース文字コード、フォーム字文字コード、慣用字文字コードを含む複数の基本排除文字コードを複数の基本排除文字とすることに基いて、前記要素対照表要素名詞排除連続文字コードから、前記基本排除文字コードを排除するように記録し、前記要素対照表要素名詞排除連続文字コードにおける前記基本排除文字コードが排除された連続文字コードを基本排除文字連続文字コードとする、基本排除文字記録排除工程と、コンピュータによって、複数の前記基本排除文字連続文字コードを自動的に読取って基本排除文字連続文字とし、前記基本排除文字連続文字コードと前記基本排除文字連続文字コードの前の排除と記録された前記基本排除文字コードの間の文字連続関係に基き、及び、前記基本排除文字連続文字コードと前記基本排除文字連続文字コードの後の排除と記録された前記基本排除文字コードの間の慣用字文字コード、動詞文字コード、副詞文字コード及び設置詞文字コードの間の文字コード相隣文字関係である文字コード相隣文字関係に基いて、前記基本排除文字連続文字コードから、削除可能文字コードを削除可能文字として排除するように記録し、前記基本排除文字連続文字コードから、前記削除可能文字コードが排除されて削除可能文字削除連続文字コードを獲得して削除可能文字削除連続文字とする、削除可能文字記録排除工程と、コンピュータによって、複数の前記削除可能文字削除連続文字コードを自動的に読取って複数の前記削除可能文字削除連続文字とし、単一文字排除文字コードを前記削除可能文字削除連続文字コードから排除するように記録して、前記削除可能文字削除連続文字コードから、単一文字排除文字コードが排除されて初歩要素名詞文字コードを獲得して初歩要素名詞とする、単一文字記録排除工程と、コンピュータによって、複数の前記最初要素名詞文字コードを自動的に読取って複数の最初要素名詞とし、前一つ文字が不定冠詞である前記初歩要素名詞文字コードを前字不定冠詞初歩要素名詞文字コードとし、前一つ文字が定冠詞であるもう一つの前記初歩要素名詞文字コードを前字定冠詞初歩要素名詞文字コードとし、前記前字不定冠詞初歩要素名詞文字コードを前から後への順序で前記前字定冠詞初歩要素名詞文字コードと比較し、前記前字定冠詞初歩要素名詞文字コードに対して前記前字不定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞文字コードを獲得して獲得要素名詞文字とし、且つ、前記前字不定冠詞初歩要素名詞文字コードに対して前記前字定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞文字コードを獲得して獲得要素名詞とする、高度排除文字記録排除工程と、を含むことを特徴とするコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法
本発明のもう1つの実施例では、前記削除可能文字記録排除工程が首部文字記録排除工程を有し、前記首部文字記録排除工程がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字文字コードである削除可能識別文字コードにより:各前記基本排除文字連続文字コードの起始文字コードや起始連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード後の指定文字数の文字コードを首部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの起始文字コードの相隣前文字コードや相隣前連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記起始文字コード後の指定文字数の文字コードを首部削除文字として排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記首部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とするもう一つのコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明のもう1つの実施例では、前記削除可能文字記録排除工程が尾部文字記録排除工程を更に有し、前記尾部文字記録排除装置がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字コードである削除可能識別文字コードにより:各前記基本排除文字連続文字コードの末文字や末連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの末文字コードの相隣後文字コードや相隣跡後連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記末文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記尾部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とするもう一つのコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明のもう1つの実施例では、前記高度排除文字記録排除工程が更に高度排除慣用字コードによって各前記初歩要素名詞コードから前記高度排除慣用字コードを排除するように記録し、前記初歩要素名詞文字コードにおける前記高度排除文字コードが排除された連続文字コードを前記獲得要素名詞文字コードとすることを特徴とするもう一つのコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明のもう1つの実施例では、各獲得要素名詞文字コード、各獲得要素名詞文字コードの獲得要素名詞所属位置コード、句読点文字コードおよび改行符号文字コードに基いて、前記中国語文字の特許請求の範囲の構造を得ることを特徴とするもう一つのコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明によれば、要素名詞データベースの立ち上げ、且つ、品詞での要素名詞の判断の代わりに、特許請求項の書き方と特性に基いて要素名詞の存在不可能の文字位置で順位に排除することで要素名詞を獲得することで、膨大なシステム計算およびストレージをかからずに、効率な最高獲得数、最高正確度、最速獲得速度で、特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
本発明によるコンピュータによって実行されるコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法の1つの実施例のブロック図である。 基本排除文字連続文字コードの起始文字コードや起始連続文字コードに削除可能識別文字コードが含まれると削除可能識別文字コードを対応削除可能識別文字とすることを示す図である。 基本排除文字連続文字コードの起始文字コードや起始連続文字コードに削除可能識別文字コードが含まれると削除可能識別文字コードを対応削除可能識別文字とすることを示すもう1つの図である。 各基本排除文字連続文字コードの起始文字コードの相隣前文字コードや相隣前連続文字コードに削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにすることを示す図である。 基本排除文字連続文字コードの尾部文字コードや尾部連続文字コードに削除可能識別文字コードが含まれると削除可能識別文字コードを対応削除可能識別文字とすることを示す図である。 基本排除文字連続文字コードの最後文字コードや最後連続文字コードに削除可能識別文字コードが含まれると削除可能識別文字コードを対応削除可能識別文字とすることを示す図である。 各基本排除文字連続文字コードの最後文字コードの相隣前文字コードや相隣前連続文字コードに削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにすることを示す図である。 本発明によるコンピュータによって実行されるコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法のもう1つの実施例のブロック図である。
以下、図1~図4を用いて本発明の実施形態を説明する。本発明はこれらの説明に限定されるものでおらず、本発明の一つの実施例である。
図1~図3(c)に示すように、コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pは、コンピュータを用いて中国語文字からなる中国語文字の特許請求の範囲の文字に対して所有する要素名詞文字コード(EM)及び要素名詞所属位置コード(EP)を自動的に獲得して自動獲得要素名詞及び自動獲得要素名詞所属位置とする。コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pは、基本排除文字記録排除工程1を有し、コンピュータによって、中国語文字の特許請求の範囲の文字コード(C-text)を自動的に読み取って前記中国語文字の特許請求の範囲の文字とし、基本排除文字データベース11において複数の基本排除文字コードBを複数の基本排除文字とすることに基いて、前記中国語文字の特許請求の範囲の文字コード(C-text)から、複数の前記基本排除文字コードBを排除するように記録して、前記中国語文字の特許請求の範囲の文字コード(C-text)における前記基本排除文字コードBが排除された連続文字コードを基本排除文字連続文字コードB-textとする。
基本排除文字データベースにおいて複数の基本排除文字コードが、冠詞文字コード、単位データベース文字コード、フォーム字文字コード、慣用字文字コードを含む。
Figure 0007105500000001
Figure 0007105500000002
Figure 0007105500000003
Figure 0007105500000004
本発明の1つの実施例では、基本排除文字コードBに特定標示元(例えば、BD(Basic deleting words))を与えて前記基本排除文字コードの識別とする。
基本排除文字コードBの特定標示元がBWであると、識別された基本排除文字コードを“BW”を有する特定標示元にするように記録する。
また、前記特定標示文字の中国語文字の特許請求の範囲の文字の最初位置と終了位置を標示でき、例えば、“一種”の基本排除文字の最初位置が0であり、終了位置が1である。
そして、前記特定標示元、前記基本排除文字の内容、前記特定標示文字の最初位置と終了位置をメモリに記憶し、例えば、(BW,“一種”0,1)に記憶する。
もちろん、本発明は上述の様態に限定されず、中国語文字の特許請求の範囲の文字において、基本排除文字コードBと基本排除文字連続文字コードB-Textの相互の位置関係、及び基本排除文字コードBと基本排除文字連続文字コードB-Textの内容を、明確に標示できればいい。
Figure 0007105500000005
即ち、図2(a)、図2(b)、図2(c)、図3(a)、図3(b)、図3(c)に示す(排除するように記録された文字コードが“XX”で標示され、検出された削除可能文字コートSDが○で標示される)ように、削除可能文字記録排除工程2は、基本排除文字連続文字コードB-Textにおいて削除可能文字コートSDがあるかどうかを探し(図2(a)、図2(b)、図3(a)、図3(b)のように)、或は、基本排除文字連続文字コードB-Textに相隣する基本排除文字コードBにおいて削除可能文字コートSDがあるかどうかを探し(図2(c)、図3(c)のように)、基本排除文字連続文字コードB-Textにおいて削除可能文字コートSDがあれば(図2(a)、図2(b)、図3(a)、図3(b)のように)、基本排除文字連続文字コードB-Textにおいて削除可能文字コートSDを削除するように記録し(図2(a)、図3(a)のように)、或は、削除可能文字コートSDと共に削除可能文字コートSDの相隣文字や相隣連続文字を削除可能文字として排除するように記録する(図2(b)、図3(b)のように)。
また、基本排除文字コードBにおいて削除可能文字コートSDがあれば(図2(c)、図3(c)のように)、基本排除文字連続文字コードB-Textの首部や尾部の特定文字数の文字コードや連続文字コードを削除可能文字コートSDとして排除するように記録する。
詳細には、削除可能文字コートSDが基本排除文字連続文字コードB-Textに存在し、或は、基本排除文字連続文字コードB-Textの相隣の外に存在する。
「基本排除文字連続文字コードB-Textの相隣の外の削除可能文字コートSD」というのは、削除可能文字コートSDが基本排除文字連続文字コードB-Textに存在されず、基本排除文字連続文字コードB-Textの前相隣基本排除文字コードBの尾部や後相隣基本排除文字コードBの首部に存在する。
更に、本発明の削除可能文字記録排除工程2は、基本排除文字連続文字コードB-Textに対して削除可能文字コートSDを探すこと以外、基本排除文字連続文字コードB-Textの前相隣基本排除文字コードBの尾部文字、後相隣基本排除文字コードBの尾部文字、前相隣基本排除文字コードBの尾部連続文字、或は後相隣基本排除文字コードBの尾部連続文字が削除可能文字コートSDであるかどうかを探し、そうであれば、基本排除文字連続文字コードB-Textの首部文字、尾部文字や尾部連続文字を取り出して削除可能文字として削除するように記録する。
被設置成 隔離層鄰接聚合材料層」における「被設置成」の部分を例として、その「一」と「與」が基本排除文字コードBであり、「被設置成」が基本排除文字連続文字コードB-Textである。
「被設置」が削除可能文字コートSDに指定されると、即ち、削除可能文字コートSDが基本排除文字連続文字コードB-Textに存在するので、削除可能文字コートSDである「被設置」を削除可能文字とし、削除可能文字コートSDである「被設置」を、基本排除文字連続文字コードある「被設置成」から排除するように記録し、「被設置」が排除された削除可能文字削除連続文字コート「成」になる。
これは、図2(a)の例である。
Figure 0007105500000006
具体的には、図2(a)、図2(b)及び図2(c)に示すように、本発明の削除可能文字記録排除工程2は首部文字記録排除工程21を有する。首部文字記録排除工程21が、がコンピュータを用いて複数の前記基本排除文字連続文字コードB-Textを自動的に読取り、慣用字文字コードである削除可能識別文字(IW、Identifying word)コードにより:各前記基本排除文字連続文字コードB-Textの起始文字コードや起始連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記対応削除可能識別文字コード(Found-IW)且つ/或は前記対応削除可能識別文字コード(Found-IW)後の指定文字数の文字コードを首部削除文字コード(HD)として排除するように記録し、或は、各前記基本排除文字連続文字コードB-Textの起始文字コードの相隣前文字コードや相隣前連続文字コードに前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記起始文字コード後の指定文字数の文字コードを首部削除文字コード(HD)として排除するように記録することで、前記基本排除文字排除連続文字コードB-Textにおける前記首部削除文字コード(HD)が排除された連続文字コードを前記削除可能文字削除連続文字コード(D-Text)とする。
図3(a)、図3(b)及び図3(c)に示すように、前記削除可能文字記録排除工程2が尾部文字記録排除工程22を更に有する。前記尾部文字記録排除装置22が、コンピュータを用いて複数の前記基本排除文字連続文字コードB-Textを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字コードである削除可能識別文字コード(IW)により:各前記基本排除文字連続文字コードB-Textの末文字コードや末連続文字コードに前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記対応削除可能識別文字コード(Found-IW)且つ/或は前記対応削除可能識別文字コード(Found-IW)前の指定文字数の文字コードを尾部削除文字コード(TD)として排除するように記録し、或は、各前記基本排除文字連続文字コードB-Textの末文字コードの相隣後文字コードや相隣後連続文字コードに前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記末文字コード前の指定文字数の文字コードを尾部削除文字コード(TD)として排除するように記録することで、前記基本排除文字排除連続文字コードB-Textにおける前記尾部削除文字コード(TD)が排除された連続文字コードを前記削除可能文字削除連続文字コード(D-Text)とする。
以下、図2(a)、図2(b)及び図2(c)により、首部文字記録排除工程21の一つの実施例を説明する。
図2(a)において、基本排除文字連続文字コードB-Textの起始文字コードや起始連続文字コードに削除可能識別文字コード(IW)が含まれると、削除可能識別文字コード(IW)を対応削除可能識別文字コード(Found-IW)にして、対応削除可能識別文字コード(Found-IW)を首部削除文字コード(HD)として排除するように記録する。
例えば、削除可能識別文字コード(IW、Identifying word)が「被設置」、「或」;「被」;「隨」;「為」;「將」;「給」(字数が多いものが先に執行する)であると、これらの削除可能識別文字コード(IW)を、基本排除文字連続文字コードB-Textの起始の所から排除するように記録する。
Figure 0007105500000007
図2(c)において、基本排除文字連続文字コードB-Textの起始文字コードの相隣前文字コードや相隣前連続文字コード(相隣前基本排除文字コードBに存在する)に前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記起始文字コード後の指定文字数の文字コードを首部削除文字コード(HD)として排除するように記録することで、前記基本排除文字排除連続文字コードB-Textにおける前記首部削除文字コード(HD)が排除された連続文字コードを前記削除可能文字削除連続文字コード(D-Text)とする
例えば、基本排除文字連続文字コードB-Textの相隣前1字コードや相隣前連続文字コード(これらの文字コード及び連続文字コードが排除するように記録された)が、藉以、用以、用來、用於、彼此などの削除可能識別文字コード(IW)であると、基本排除文字連続文字コードB-Textの起始のところの後の2字コードを排除するように記録する。
以下、図3(a)、図3(b)及び図3(c)により、尾部文字記録排除工程22の一つの実施例を説明する。
図3(a)において、基本排除文字連続文字コードB-Textの末文字コードや末連続文字コードに削除可能識別文字コード(IW)が含まれると、削除可能識別文字コード(IW)を対応削除可能識別文字コード(Found-IW)にして、対応削除可能識別文字コード(Found-IW)を尾部削除文字コード(TD)として排除するように記録する。
例えば、削除可能識別文字コード(IW、Identifying word)が、或、成、於、時、來、有、者、對應、相關、連同、之間、鄰接、“要素名詞+2字”(字数が多いものが先に執行する)であると、これらの削除可能識別文字コード(IW)を、基本排除文字連続文字コードB-Textの尾部の所から排除するように記録する。
図3(b)において、基本排除文字連続文字コードB-Textの末文字コードや末連続文字コードに削除可能識別文字コード(IW)が含まれると、削除可能識別文字コード(IW)を対応削除可能識別文字コード(Found-IW)にして、対応削除可能識別文字コード(Found-IW)及び対応削除可能識別文字コード(Found-IW)前の指定文字数の文字コードを尾部削除文字コード(TD)として排除するように記録する。
例えば、削除可能識別文字コード(IW)が、給、到(字数が多いものが先に執行する)、為であると、それらの文字コード及びそれらの文字コードの前2字コードを排除するように記録する。
図3(c)において、各前記基本排除文字連続文字コードB-Textの末文字コードの相隣後文字コードや相隣後連続文字コード(相隣後基本排除文字連続文字コードBに存在する)に前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記末文字コード前の指定文字数の文字コードを尾部削除文字コード(TD)として排除するように記録することで、前記基本排除文字排除連続文字コードB-Textにおける前記尾部削除文字コード(TD)が排除された連続文字コードを前記削除可能文字削除連続文字コード(D-Text)とする。
例えば、基本排除文字連続文字コードB-Textの相隣後1字文字コードや相隣後連続文字コード(これらの文字コード及び連続文字コードが排除するように記録された)が、該、一、於、在であると、基本排除文字連続文字コードB-Textの最終のところの前2字文字コードを排除するように記録する。
Figure 0007105500000008
本発明のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pは、更に、単一文字記録排除工程3を有し、単一文字記録排除工程3が、コンピュータによって、複数の前記削除可能文字削除連続文字コード(D-text)を自動的に読取って複数の複数の前記削除可能文字削除連続文字とし、単一文字排除文字コード(SW)を複数の前記削除可能文字削除連続文字コード(D-text)から排除するように記録して、前記削除可能文字削除連続文字コードが、前記単一文字排除文字コード(SW)が排除されて初歩要素名詞文字コード(P-EN)を獲得して初歩要素名詞とする、
Figure 0007105500000009
本発明のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pは、更に、高度排除文字記録排除工程4を有し、高度排除文字記録排除工程4が、コンピュータによって、複数の前記初歩要素名詞文字コード(P-EN)を自動的に読取って複数の前記初歩要素名詞とし、前記初歩要素名詞文字コードの前一つ文字が不定冠詞文字コードである前記初歩要素名詞文字コードを前字不定冠詞初歩要素名詞文字コードとし、前記初歩要素名詞文字コードの前一つ文字が定冠詞であるもう一つの初歩要素名詞文字コードを前字定冠詞初歩要素名詞文字コードとし、前記前字不定冠詞初歩要素名詞文字コードを前から後への順序で前記前字定冠詞初歩要素名詞文字コードと比較する。
前記前字定冠詞初歩要素名詞文字コードに対して前記前字不定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞コードを獲得する。
且つ、前記前字不定冠詞初歩要素名詞文字コードに対して前記前字定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞文字コードを獲得して獲得要素名詞文字とする。
詳細には、初歩要素名詞が2字文字コードであり、且つ、その初歩要素名詞の前/後が、「於」、「成」、「至」、「在」、「用於」……などであると、初歩要素名詞文字コードを削除し、及び、「經XX」(XXが2字文字コードを表する)、「為XX」(XXが2字文字コードを表する)、「待XX」(XXが2字文字コードを表する)、「之間」、「同時」、「實時」、「以上」、「被XX的」(XXが2字文字コードを表する)、「XX化」……などの文字コードであると、初歩要素名詞文字コードを削除する。
Figure 0007105500000010
Figure 0007105500000011
図1に示すように、更に、本発明の一つの実施例のコンピュータによって実行される、コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pによると、高度排除文字記録排除工程4が、更に高度排除慣用字コードによって各前記初歩要素名詞コードから前記高度排除慣用字コードを排除するように記録し、前記初歩要素名詞文字コードにおける前記高度排除文字コードが排除された連続文字コードを前記獲得要素名詞文字コードとする。
この方法によって、獲得要素名詞を確定するので、首部文字記録排除工程21の“要素名詞+2字”の排除するように記録することを再執行でき、要素名詞の獲得正確度を向上できる。
図1に示すように、更に、本発明の一つの実施例のコンピュータによって実行される、コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pによると、各獲得要素名詞文字コード、各獲得要素名詞文字コードの獲得要素名詞所属位置コード、句読点文字コードおよび改行符号文字コードに基いて、前記中国語文字の特許請求の範囲の構造を得る。
例えば、句読点文字コードによって、中国語文字の特許請求の範囲に対して、改行を行うことができ、且つ、獲得された獲得要素名詞文字コードを、クリックして獲得要素名詞の明細書の位置に移動するようにクリックできると標示することで、獲得要素名詞の意義を更に分かることができる。
Figure 0007105500000012
本発明において、上述の実施例以外、要素対照表にリストされる要素名詞を、中国語文字の特許請求の範囲の文字コード(C-text)から見出すことを先に行い、基本排除文字記録排除工程1の基本排除文字連続文字B-textの獲得を行うことができる。
図4に示すように、本発明のもう一つの実施例において、コンピュータによって実行される、文字間スペースなし言語特許書類文字コードのコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pには、要素対照表要素名詞記録排除工程1Aが設置されることができ、
要素対照表要素名詞記録排除工程1Aが、コンピュータによって、中国語文字の特許請求の範囲の文字コード(C-text)を自動的に読み取り、要素名詞対照表(EN-List)における要素対照表要素名詞文字コード(List-EN)に基いて、前記中国語文字の特許請求の範囲の文字コード(C-text)から、前記要素対照表要素名詞文字コード(List-EN)を排除するように記録し、前記中国語文字の特許請求の範囲の文字コード(C-text)における前記要素対照表要素名詞文字コード(List-EN)が排除された連続文字コードを要素対照表要素名詞排除連続文字コード(D-EN)とする。
獲得する要素対照表要素名詞排除連続文字コード(D-EN)が基本排除文字記録排除工程1に伝送し、基本排除文字記録排除工程1によって上述と同様な操作を行い、前記要素対照表要素名詞排除連続文字コード(D-EN)から、前記基本排除文字コードBを排除するように記録し、前記要素対照表要素名詞排除連続文字コード(D-EN)における前記基本排除文字コードBが排除された連続文字コードを基本排除文字連続文字コードB-textとする。
更に、先に、要素対照表要素名詞文字コード(List-EN)を獲得した後、次の削除可能文字記録排除工程2(首部文字記録排除工程21と首部文字記録排除工程22を有する)で要素対照表要素名詞文字コード(List-EN)に関する規則運算を制定することで、全体の運算速度及び正確性を向上できる。
即ち、削除可能文字記録排除工程2が要素対照表要素名詞文字コードを削除可能文字コードSDに取り込み、基本排除文字連続文字コードB-textから削除可能文字コードSDを削除可能文字として排除するように記録し、且つ/或は、削除可能文字コードSDの相隣文字コードや相隣連続文字コードを削除可能文字として排除するように記録することで、基本排除文字連続文字コードB-textで削除可能文字が排除された連続文字コードを削除可能文字削除連続文字とする。
具体的に、削除可能文字記録排除工程2の首部文字記録排除工程21が、複数の前記基本排除文字連続文字コードB-textを自動的に読取り、要素対照表要素名詞文字コード(List-EN)を削除可能識別文字コード(IW)に取り込み、第1の実施例の判断以外、更に、要素対照表要素名詞文字コード(List-EN)に基いて:各前記基本排除文字連続文字コードB-textの起始文字コードの相隣前文字コードや相隣前連続文字コードに要素対照表要素名詞文字コード(List-EN)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記起始文字コード後の指定文字数の文字コードを首部削除文字として排除するように記録する(即ち、要素対照表要素名詞文字コード(List-EN)を削除可能識別文字コード(IW)に取り込む際に、図2(c)と図3(c)に示す例のように、削除可能識別文字コード(IW)が基本排除文字連続文字コードB-textの起始文字コード以外の相隣前文字コードや相隣前連続文字コードである)。
このとき、首部文字記録排除工程21が第1実施例と同様に、他の要素対照表要素名詞文字コード(List-EN)ではない削除可能識別文字コード(IW)に対して:各前記基本排除文字連続文字コードB-Textの起始文字コードや起始連続文字コードに前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記対応削除可能識別文字コード(Found-IW)且つ/或は前記対応削除可能識別文字コード(Found-IW)後の指定文字数の文字コードを首部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードB-Textの起始文字コードの相隣前文字コードや相隣前連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記起始文字コード後の指定文字数の文字コードを首部削除文字コードとして排除するように記録することで、前記基本排除文字排除連続文字コードB-Textにおける前記首部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コード(D-Text)とする。
詳細には、首部文字記録排除工程21が、第1実施例と同様に削除可能識別文字コード(IW)に対する判断を執行すること以外、知られた要素対照表要素名詞文字コード(List-EN)に基いて、基本排除文字排除連続文字コードB-Textに対して以下の文字コードの記録排除を行って、削除可能文字削除連続文字コード(D-Text)を獲得する。
例えば、「將」+「要素対照表要素名詞文字コード(List-EN)」+「……至」(即ち、「將」と「要素対照表要素名詞文字コード(List-EN)」が基本排除文字排除連続文字コードB-Textである「……至」の外に前に相隣し、且つ、「至」が基本排除文字排除連続文字コードB-Textの尾部にいる)である場合、「至」と「至」の前2字を排除するように記録する。
また、例えば、「把」+「要素対照表要素名詞文字コード(List-EN)」+「……至」(即ち、「把」と「要素対照表要素名詞文字コード(List-EN)」が基本排除文字排除連続文字コードB-Textである「……至」の外に前に相隣し、且つ、「至」が基本排除文字排除連続文字コードB-Textの尾部にいる)である場合、「至」と「至」の前2字を排除するように記録する。
また、例えば、「把」+「要素対照表要素名詞文字コード(List-EN)」+「……以」(即ち、「把」と「要素対照表要素名詞文字コード(List-EN)」が基本排除文字排除連続文字コードB-Textである「……以」の外に前に相隣し、且つ、「以」が基本排除文字排除連続文字コードB-Textの尾部にいる)である場合、「以」と「以」の前2字を排除するように記録する。
要素対照表要素名詞文字コード(List-EN)を先に獲得する要素対照表要素名詞記録排除工程1Aを有する文字間スペースなし言語特許書類文字コードのコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法Pにおいて、削除可能文字記録排除工程2の尾部文字記録排除工程22が、複数の前記基本排除文字連続文字コードB-textを自動的に読取り、要素対照表要素名詞文字コード(List-EN)を削除可能識別文字コード(IW)に取り込み、第1の実施例の判断以外、更に、要素対照表要素名詞文字コード(List-EN)に基いて:各前記基本排除文字連続文字コードB-textの起始文字コードの相隣後文字コードや相隣後連続文字コードに要素対照表要素名詞文字コード(List-EN)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記最終文字コード後の指定文字数の文字コードを尾部削除文字として排除するように記録する(即ち、要素対照表要素名詞文字コード(List-EN)を削除可能識別文字コード(IW)に取り込む際に、図2(c)と図3(c)に示す例のように、削除可能識別文字コード(IW)が基本排除文字連続文字コードB-textの最終文字コード以外の相隣後文字コードや相隣後連続文字コードである)。
このとき、尾部文字記録排除工程22が第1実施例と同様に、他の要素対照表要素名詞文字コード(List-EN)ではない削除可能識別文字コード(IW)に対して:各前記基本排除文字連続文字コードB-Textの最終文字コードや最終連続文字コードに前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記対応削除可能識別文字コード(Found-IW)且つ/或は前記対応削除可能識別文字コード(Found-IW)前の指定文字数の文字コードを尾部削除文字コード(TD)として排除するように記録し、或は、各前記基本排除文字連続文字コードB-Textの最終文字コードの相隣後文字コードや相隣後連続文字コードに前記削除可能識別文字コード(IW)が含まれるかどうかを判断し対応削除可能識別文字コード(Found-IW)にして前記最終文字コード前の指定文字数の文字コードを尾部削除文字コード(TD)として排除するように記録することで、前記基本排除文字排除連続文字コードB-Textにおける前記尾部削除文字コード(TD)が排除された連続文字コードを前記削除可能文字削除連続文字コードとする。
例えば、尾部文字記録排除工程22が、第1実施例と同様に削除可能識別文字コード(IW)に対する判断を執行すること以外、知られた要素対照表要素名詞文字コード(List-EN)に基いて、基本排除文字排除連続文字コードB-Textに対して以下の文字コードの記録排除を行って、削除可能文字削除連続文字コードを獲得する。
例えば、「至」+「要素対照表要素名詞文字コード(List-EN)」(即ち、「要素対照表要素名詞文字コード(List-EN)」が基本排除文字排除連続文字コードB-Textである「……至」の外に後に相隣し、且つ、「至」が基本排除文字排除連続文字コードB-Textの尾部にいる)である場合、「至」と「至」の前2字を排除するように記録する(「;」、「,」などの句読点まで)。
また、例えば、「給」+「要素対照表要素名詞文字コード(List-EN)」(即ち、「要素対照表要素名詞文字コード(List-EN)」が基本排除文字排除連続文字コードB-Textである「……給」の外に後に相隣し、且つ、「給」が基本排除文字排除連続文字コードB-Textの尾部にいる)である場合、「給」と「給」の前2字を排除するように記録する(「;」、「,」などの句読点まで)。
また、例えば、「到」+「要素対照表要素名詞文字コード(List-EN)」(即ち、「要素対照表要素名詞文字コード(List-EN)」が基本排除文字排除連続文字コードB-Textである「……到」の外に後に相隣し、且つ、「到」が基本排除文字排除連続文字コードB-Textの尾部にいる)である場合、「到」と「到」の前2字を排除するように記録する(「;」、「,」などの句読点まで)。
また、例えば、「至」+「要素対照表要素名詞文字コード(List-EN)」(即ち、「要素対照表要素名詞文字コード(List-EN)」が基本排除文字排除連続文字コードB-Textである「……至」の外に後に相隣し、且つ、「至」が基本排除文字排除連続文字コードB-Textの尾部にいる)である場合、「至」と「至」の前2字を排除するように記録する(「;」、「,」などの句読点まで)。
本発明の実施形態によると、本発明は、特許書類の要素名詞及び要素名詞所属位置の自動獲得に対して、要素名詞データベースの立ち上げ、且つ、品詞での要素名詞の判断の代わりに、特許請求項の書き方と特性に基いて要素名詞の存在不可能の文字位置で順位に排除することで要素名詞を獲得することで、膨大なシステム計算およびストレージをかからずに、効率な最高獲得数、最高正確度、最速獲得速度で、特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法を提供する。
なお、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法
1A 要素対照表要素名詞記録排除工程
1 基本排除文字記録排除工程
11 基本排除文字データベース
2 削除可能文字記録排除工程
21 首部文字記録排除工程
22 尾部文字記録排除工程
3 単一文字記録排除工程
4 高度排除文字記録排除工程
42 第二細部要素名詞獲得工程
B 基本排除文字コード
B-Text 基本排除文字連続文字コード
SD 削除可能文字コード

Claims (8)

  1. コンピュータを用いて中国語文字からなる中国語文字の特許請求の範囲の文字に対して前記中国語文字の特許請求の範囲に所属する各要素名詞文字コードを自動的に獲得して自動獲得要素名詞とし、コンピュータによって実行される、中国語特許書類の要素名詞自動獲得方法であって、
    コンピュータによって、中国語文字の特許請求の範囲の文字コードを自動的に読み取って前記中国語文字の特許請求の範囲の文字とし、基本排除文字データベースにおいて冠詞文字コード、単位データベース文字コード、フォーム字文字コード、慣用字文字コードを含む複数の基本排除文字コードを複数の基本排除文字とすることに基いて、前記中国語文字の特許請求の範囲の文字コードから、複数の前記基本排除文字コードを排除するように記録して、前記中国語文字の特許請求の範囲の文字コードにおける前記基本排除文字コードが排除された連続文字コードを基本排除文字連続文字コードとする、基本排除文字記録排除工程と、
    コンピュータによって、複数の基本排除文字連続文字コードを自動的に読取って基本排除文字連続文字とし、前記基本排除文字連続文字コードと前記基本排除文字連続文字の前の排除と記録された前記基本排除文字コードの間の文字コード相隣文字関係に基き、前記基本排除文字連続文字コードと前記基本排除文字連続文字の後の排除と記録された前記基本排除文字コードの間の慣用字文字コード、動詞文字コード、副詞文字コード、設置詞文字コードを含む文字コード相隣文字関係に基いて、前記基本排除文字連続文字コードから、削除可能文字コードを削除可能文字として排除するように記録し、前記基本排除文字連続文字コードから、前記削除可能文字コートが排除されて削除可能文字削除連続文字コードを獲得して削除可能文字削除連続文字とする、削除可能文字記録排除工程と、
    コンピュータによって、複数の前記削除可能文字削除連続文字コードを自動的に読取って複数の前記削除可能文字削除連続文字とし、単一文字排除文字コードを前記削除可能文字削除連続文字コードから排除するように記録して、前記削除可能文字削除連続文字コードから、前記単一文字排除文字コードが排除されて初歩要素名詞文字コードを獲得して初歩要素名詞とする、単一文字記録排除工程と、
    コンピュータによって、複数の前記初歩要素名詞文字コードを自動的に読取って複数の初歩要素名詞文字とし、前記初歩要素名詞文字コードの前一つ文字が不定冠詞文字コードである前記初歩要素名詞文字コードを前字不定冠詞初歩要素名詞文字コードとし、かつ前記初歩要素名詞文字コードの前一つ文字が定冠詞であるもう一つの初歩要素名詞文字コードを前字定冠詞初歩要素名詞文字コードとし、前記前字不定冠詞初歩要素名詞文字コードを前から後への順序で前記前字定冠詞初歩要素名詞文字コードと比較し、前記前字定冠詞初歩要素名詞文字コードに対して前記前字不定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞コードを獲得し、且つ、前記前字不定冠詞初歩要素名詞文字コードに対して前記前字定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞文字コードを獲得して獲得要素名詞文字とする、高度排除文字記録排除工程と、を含むことを特徴とするコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法
  2. 前記削除可能文字記録排除工程が首部文字記録排除工程を有し、前記首部文字記録排除工程がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字文字コードである削除可能識別文字コードに基づいて:各前記基本排除文字連続文字コードの起始文字コードや起始連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード後の指定文字数の文字コードを首部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの起始文字コードの相隣前文字コードや相隣前連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記起始文字コード後の指定文字数の文字コードを首部削除文字コードとして排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記首部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とする請求項1のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法
  3. 前記削除可能文字記録排除工程が尾部文字記録排除工程を更に有し、前記尾部文字記録排除装置がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字コードである削除可能識別文字コードに基づいて:各前記基本排除文字連続文字コードの末文字コードや末連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの末文字コードの相隣後文字コードや相隣後連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記末文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記尾部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とする請求項1のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法
  4. 各獲得要素名詞文字コード、句読点文字コードおよび改行符号文字コードに基いて、前記中国語文字の特許請求の範囲の構造を得ることを特徴とする請求項1のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法。
  5. コンピュータを用いて中国語文字からなる中国語文字の特許請求の範囲の文字に対して前記中国語文字の特許請求の範囲に所属する各要素名詞文字コードを自動的に獲得して自動獲得要素名詞とし、コンピュータによって実行される、コンピュータによって実行される中国語特許書類の要素名詞自動獲得方法であって、
    コンピュータによって、中国語文字の特許請求の範囲の文字コードを自動的に読み取って前記中国語文字の特許請求の範囲の文字とし、要素名詞対照表における要素対照表要素名詞文字コードに基いて、前記中国語文字の特許請求の範囲の文字コードから、前記要素対照表要素名詞文字コードを排除するように記録し、前記中国語文字の特許請求の範囲の文字コードにおける前記要素対照表要素名詞文字コードが排除された連続文字コードを要素対照表要素名詞排除連続文字コードとする、要素対照表要素名詞記録排除工程と、
    コンピュータによって、前記要素対照表要素名詞排除連続文字コードを自動的に読み取り、基本排除文字データベースにおいて冠詞文字コード、単位データベース文字コード、フォーム字文字コード、慣用字文字コードを含む複数の基本排除文字コードを複数の基本排除文字とすることに基いて、前記要素対照表要素名詞排除連続文字コードから、前記基本排除文字コードを排除するように記録し、前記要素対照表要素名詞排除連続文字コードにおける前記基本排除文字コードが排除された連続文字コードを基本排除文字連続文字コードとする、基本排除文字記録排除工程と、
    コンピュータによって、複数の前記基本排除文字連続文字コードを自動的に読取って基本排除文字連続文字とし、前記基本排除文字連続文字コードと前記基本排除文字連続文字コードの前の排除と記録された前記基本排除文字コードの間の文字連続関係に基き、及び、前記基本排除文字連続文字コードと前記基本排除文字連続文字コードの後の排除と記録された前記基本排除文字コードの間の慣用字文字コード、動詞文字コード、副詞文字コード及び設置詞文字コードの間の文字コード相隣文字関係である文字コード相隣文字関係に基いて、前記基本排除文字連続文字コードから、削除可能文字コードを削除可能文字として排除するように記録し、前記基本排除文字連続文字コードから、前記削除可能文字コードが排除されて削除可能文字削除連続文字コードを獲得して削除可能文字削除連続文字とする、削除可能文字記録排除工程と、
    コンピュータによって、複数の前記削除可能文字削除連続文字コードを自動的に読取って複数の前記削除可能文字削除連続文字とし、単一文字排除文字コードを前記削除可能文字削除連続文字コードから排除するように記録して、前記削除可能文字削除連続文字コードから、単一文字排除文字コードが排除されて初歩要素名詞文字コードを獲得して初歩要素名詞とする、単一文字記録排除工程と、
    コンピュータによって、複数の前記最初要素名詞文字コードを自動的に読取って複数の最初要素名詞とし、前一つ文字が不定冠詞である前記初歩要素名詞文字コードを前字不定冠詞初歩要素名詞文字コードとし、前一つ文字が定冠詞であるもう一つの前記初歩要素名詞文字コードを前字定冠詞初歩要素名詞文字コードとし、前記前字不定冠詞初歩要素名詞文字コードを前から後への順序で前記前字定冠詞初歩要素名詞文字コードと比較し、前記前字定冠詞初歩要素名詞文字コードに対して前記前字不定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞文字コードを獲得して獲得要素名詞文字とし、且つ、前記前字不定冠詞初歩要素名詞文字コードに対して前記前字定冠詞初歩要素名詞文字コードが余尾部文字コードを有する場合、余尾部文字コードを排除するように記録して、獲得要素名詞文字コードを獲得して獲得要素名詞とする、高度排除文字記録排除工程と、を含むことを特徴とするコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法。
  6. 前記削除可能文字記録排除工程が首部文字記録排除工程を有し、前記首部文字記録排除工程がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字文字コードである削除可能識別文字コードにより:各前記基本排除文字連続文字コードの起始文字コードや起始連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード後の指定文字数の文字コードを首部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの起始文字コードの相隣前文字コードや相隣前連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記起始文字コード後の指定文字数の文字コードを首部削除文字として排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記首部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とする請求項5のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法。
  7. 前記削除可能文字記録排除工程が尾部文字記録排除工程を更に有し、前記尾部文字記録排除装置がコンピュータを用いて複数の前記基本排除文字連続文字コードを自動的に読取って複数の前記基本排除文字連続文字とし、慣用字コードである削除可能識別文字コードにより:各前記基本排除文字連続文字コードの末文字や末連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記対応削除可能識別文字コード且つ/或は前記対応削除可能識別文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録し、或は、各前記基本排除文字連続文字コードの末文字コードの相隣後文字コードや相隣跡後連続文字コードに前記削除可能識別文字コードが含まれるかどうかを判断し対応削除可能識別文字コードにして前記末文字コード前の指定文字数の文字コードを尾部削除文字コードとして排除するように記録することで、前記基本排除文字排除連続文字コードにおける前記尾部削除文字コードが排除された連続文字コードを前記削除可能文字削除連続文字コードとすることを特徴とする請求項5のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法。
  8. 各獲得要素名詞文字コード、句読点文字コードおよび改行符号文字コードに基いて、前記中国語文字の特許請求の範囲の構造を得ることを特徴とする請求項5のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法。
JP2020148638A 2019-11-14 2020-09-04 コンピュータによって実行される文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法 Active JP7105500B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW108141435 2019-11-14
TW108141435A TWI772709B (zh) 2019-11-14 2019-11-14 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備

Publications (2)

Publication Number Publication Date
JP2021082252A JP2021082252A (ja) 2021-05-27
JP7105500B2 true JP7105500B2 (ja) 2022-07-25

Family

ID=75806081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020148638A Active JP7105500B2 (ja) 2019-11-14 2020-09-04 コンピュータによって実行される文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法

Country Status (3)

Country Link
JP (1) JP7105500B2 (ja)
CN (1) CN112800760B (ja)
TW (1) TWI772709B (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211993A (ja) 2016-05-27 2017-11-30 雲拓科技有限公司 請求の範囲の中の請求の範囲構成要素名詞所属構成要素対応符号を対応検出する方法
JP2018120586A (ja) 2017-01-24 2018-08-02 雲拓科技有限公司 請求の範囲の構造解析の処理装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318792A (ja) * 2000-05-10 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
CN1253814C (zh) * 2000-08-04 2006-04-26 拓墣科技股份有限公司 数字文件关键特征的自动撷取方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN103390004B (zh) * 2012-05-11 2018-03-02 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN102945228B (zh) * 2012-10-29 2016-07-06 广西科技大学 一种基于文本分割技术的多文档文摘方法
CN103235774B (zh) * 2013-04-27 2016-04-06 杭州电子科技大学 一种科技项目申请书特征词提取方法
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
TWI550422B (zh) * 2015-04-08 2016-09-21 雲拓科技有限公司 申請專利範圍之文字歸位方法
CN104915443B (zh) * 2015-06-29 2018-11-23 北京信息科技大学 一种中文微博评价对象的抽取方法
CN107622044A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN109829159B (zh) * 2019-01-29 2020-02-18 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211993A (ja) 2016-05-27 2017-11-30 雲拓科技有限公司 請求の範囲の中の請求の範囲構成要素名詞所属構成要素対応符号を対応検出する方法
JP2018120586A (ja) 2017-01-24 2018-08-02 雲拓科技有限公司 請求の範囲の構造解析の処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
原 正巳 外2名,テキストのフォーマットと単語の範囲内重要度を利用したキーワード抽出,情報処理学会論文誌,日本,社団法人情報処理学会,1997年02月15日,第38巻 第2号,pp.299-309
柚木山 駿 外3名,特許関連業務支援のための技術用語自動抽出の試み,言語処理学会第22回年次大会 発表論文集 [online],日本,言語処理学会,2016年02月29日,pp.326-329,http://www.anlp.jp/proceedings/annual_meeting/2016/pdf_dir/C1-3.pdf

Also Published As

Publication number Publication date
TWI772709B (zh) 2022-08-01
TW202119258A (zh) 2021-05-16
CN112800760A (zh) 2021-05-14
CN112800760B (zh) 2024-08-02
JP2021082252A (ja) 2021-05-27

Similar Documents

Publication Publication Date Title
US6671684B1 (en) Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
CN112257613B (zh) 体检报告信息结构化提取方法、装置及计算机设备
JP5508359B2 (ja) 文字認識装置、文字認識方法及びプログラム
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JP2013069015A (ja) 情報処理装置及び情報処理プログラム
JP2008022159A (ja) 文書処理装置及び文書処理方法
Berg-Kirkpatrick et al. Improved typesetting models for historical OCR
CN112541095A (zh) 视频标题生成方法、装置、电子设备及存储介质
JP2008077454A (ja) タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム
CN103559512B (zh) 一种文字识别输出方法及系统
CN102103612A (zh) 一种信息提取方法及装置
US8170289B1 (en) Hierarchical alignment of character sequences representing text of same source
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
JP7105500B2 (ja) コンピュータによって実行される文字間スペースなし特許書類のコンピュータによって実行される中国語特許書類の要素名詞自動獲得方法
CN113495874A (zh) 信息处理装置和计算机可读取介质
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN113723082B (zh) 从文本中检测中文拼音的方法和装置
US20160283446A1 (en) Input assistance device, input assistance method and storage medium
US11582435B2 (en) Image processing apparatus, image processing method and medium
KR101790544B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기억 매체
JP6640618B2 (ja) 言語処理装置、方法、およびプログラム
US20190318190A1 (en) Information processing apparatus, and non-transitory computer readable medium
CN114222193B (zh) 一种视频字幕时间对齐模型训练方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211230

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220705

R150 Certificate of patent or registration of utility model

Ref document number: 7105500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150