CN109033096A - 专利文献的分类翻译方法及系统 - Google Patents
专利文献的分类翻译方法及系统 Download PDFInfo
- Publication number
- CN109033096A CN109033096A CN201811059623.0A CN201811059623A CN109033096A CN 109033096 A CN109033096 A CN 109033096A CN 201811059623 A CN201811059623 A CN 201811059623A CN 109033096 A CN109033096 A CN 109033096A
- Authority
- CN
- China
- Prior art keywords
- patent document
- information
- translation
- full text
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及专利文献翻译技术领域,特指一种专利文献的分类翻译方法,所述方法包括:S1、建立与对应的专利局检索网站之间的连接,S2、接收检索关键词并生成检索条件,S3、发送检索条件给对应的检索网站接口,S4、接收检索结果,并根据所述检索结果中专利文献的ID信息生成专利文献列表,S5、根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径。本发明通过对不同国家的专利文献进行分类,并针对专利文献全文,识别出各级标题信息并进行标注,针对标注后的不同国家的专利文献进行不同的翻译,同时翻译后的文件与原文件一同进行存储保存,可以有效的进行翻译和对比,省时省力。
Description
技术领域
本发明涉及专利文献翻译技术领域,特指一种专利文献的分类翻译方法及系统。
背景技术
机器翻译是使用计算机实现从一种自然语言文本到另一种自然语言文本的翻译;其研究方法分为规则和统计两种;由于规则系统开发周期长,资金和人力的需求大,所以规则系统进展缓慢;相对而言,统计方法开发周期短、便于处理大规模语料等优点而显出优势;在统计机器翻译方法中,基于短语的翻译方法得到充分的发展。
而专利文献是记载专利申请、审査、批准过程中所产生的各种有关文件的文件资料。
在对专利文献进行翻译的时候,对于不同国家的专利文件,在准备翻译的时候没有进行分类,所以在翻译时候,对于不同国家的语种,翻译可能会存在差异,所以翻译后与专利文献的原文件不一致,同时也耗时费力。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种专利文献的分类翻译方法及系统,达到了可以分类翻译,并且不会在翻译中造成差异的效果。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种专利文献的分类翻译方法,所述方法包括:
S1、建立与对应的专利局检索网站之间的连接;
S2、接收检索关键词并生成检索条件;
S3、发送检索条件给对应的检索网站接口;
S4、接收检索结果,并根据所述检索结果中专利文献的ID信息生成专利文献列表;
S5、根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
S6、根据不同国家的专利文献进行分类并且记录;
S7、针对专利文献全文,识别出各级标题信息并进行标注;
S8、针对标注后的不同国家的专利文献进行不同的翻译;
S9、对全文进行词法分析,得到分词和词性标注信息;
S10、以短句为单位进行翻译,并且翻译完毕后,按原文标题顺序输出;
S11、将输出后的文件与原文件一同输出,并进行保存。
进一步的,所述S2步骤还包括存储检索条件。
进一步的,所述S6步骤还包括:将所述专利文献文字信息与对应的ID信息建立关联,将关联的ID信息、国家、专利文献文字信息、专利文献全文存储于同一路径中。
一种专利文献的分类翻译系统,所述系统包括:
接口单元,用于建立与专利局检索网站接口之间的连接;
检索条件生成单元,用于接收检索关键词并生成检索条件;
传输单元,用于发送所述检索条件给对应专利局检索网站接口;
结果生成单元,用于接收检索结果,并根据所述检索结果中专利文献的ID信息生成结果列表;
信息获取单元,用于根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
全文下载单元,用于根据所述专利文献全文下载路径下载对应的专利文献全文,并与对应的ID信息建立关联;
数据分类单元,用于根据下载后的专利文献对不同国家的专利进行数据分类并记录;
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,用于识别名词短语;
短语翻译模块,根据不同国家的专利文献,通过短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,通过全文翻译模块对全文逐句翻译,并且从短语存储器中取出译文;
输出模块,通过输出模块将翻译结果按原标题顺序输出;
存储模块,用于把输出后的文件与原文件一起存储保存。
进一步的,所述短语存储器包含短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
(三)有益效果
据上述技术方案所得本发明的有益效果在于:
(1)、本发明通过对不同国家的专利文献进行分类,并针对专利文献全文,识别出各级标题信息并进行标注,针对标注后的不同国家的专利文献进行不同的翻译,同时翻译后的文件与原文件一同进行存储保存,可以有效的进行翻译和对比,省时省力。
(2)、本发明通过根据当前检索条件获取专利文献列表并统计该检索条件对应的专利文献的数量信息,如此可使得用户先了解检索条件对应的检索结果,以判断该检索结果是否是其想要的内容,并且便于进行专利文献的分类翻译。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法示意图;
图2为本发明系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,本发明提供一种技术方案:一种专利文献的分类翻译方法,方法包括:
S1、建立与对应的专利局检索网站之间的连接;
S2、接收检索关键词并生成检索条件;
S3、发送检索条件给对应的检索网站接口;
S4、接收检索结果,并根据检索结果中专利文献的ID信息生成专利文献列表;
S5、根据结果列表,获取对应ID信息的专利文献文字信息及专利文献全文下载路径;
S6、根据不同国家的专利文献进行分类并且记录;
S7、针对专利文献全文,识别出各级标题信息并进行标注;
S8、针对标注后的不同国家的专利文献进行不同的翻译;
S9、对全文进行词法分析,得到分词和词性标注信息;
S10、以短句为单位进行翻译,并且翻译完毕后,按原文标题顺序输出;
S11、将输出后的文件与原文件一同输出,并进行保存。
S2步骤还包括存储检索条件
S6步骤还包括:将专利文献文字信息与对应的ID信息建立关联,将关联的ID信息、国家、专利文献文字信息、专利文献全文存储于同一路径中。
通过根据当前检索条件获取专利文献列表并统计该检索条件对应的专利文献的数量信息,如此可使得用户先了解检索条件对应的检索结果,以判断该检索结果是否是其想要的内容,并且便于进行专利文献的分类翻译。
一种专利文献的分类翻译系统,系统包括:
接口单元,用于建立与专利局检索网站接口之间的连接;
检索条件生成单元,用于接收检索关键词并生成检索条件;
传输单元,用于发送检索条件给对应专利局检索网站接口;
结果生成单元,用于接收检索结果,并根据检索结果中专利文献的ID信息生成结果列表;
信息获取单元,用于根据结果列表,获取对应ID信息的专利文献文字信息及专利文献全文下载路径;
全文下载单元,用于根据专利文献全文下载路径下载对应的专利文献全文,并与对应的ID信息建立关联;
数据分类单元,用于根据下载后的专利文献对不同国家的专利进行数据分类并记录;
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,用于识别名词短语;
短语翻译模块,根据不同国家的专利文献,通过短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,通过全文翻译模块对全文逐句翻译,并且从短语存储器中取出译文;
输出模块,通过输出模块将翻译结果按原标题顺序输出;
存储模块,用于把输出后的文件与原文件一起存储保存。
短语存储器包含短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
通过对不同国家的专利文献进行分类,并针对专利文献全文,识别出各级标题信息并进行标注,针对标注后的不同国家的专利文献进行不同的翻译,同时翻译后的文件与原文件一同进行存储保存,可以有效的进行翻译和对比,省时省力。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种专利文献的分类翻译方法,其特征在于:所述方法包括:
S1、建立与对应的专利局检索网站之间的连接;
S2、接收检索关键词并生成检索条件;
S3、发送检索条件给对应的检索网站接口;
S4、接收检索结果,并根据所述检索结果中专利文献的ID信息生成专利文献列表;
S5、根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
S6、根据不同国家的专利文献进行分类并且记录;
S7、针对专利文献全文,识别出各级标题信息并进行标注;
S8、针对标注后的不同国家的专利文献进行不同的翻译;
S9、对全文进行词法分析,得到分词和词性标注信息;
S10、以短句为单位进行翻译,并且翻译完毕后,按原文标题顺序输出;
S11、将输出后的文件与原文件一同输出,并进行保存。
2.根据权利要求1所述的专利文献的分类翻译方法,其特征在于:所述S2步骤还包括存储检索条件。
3.根据权利要求1所述的专利文献的分类翻译方法,其特征在于:所述S6步骤还包括:将所述专利文献文字信息与对应的ID信息建立关联,将关联的ID信息、国家、专利文献文字信息、专利文献全文存储于同一路径中。
4.一种专利文献的分类翻译系统,其特征在于:所述系统包括:
接口单元,用于建立与专利局检索网站接口之间的连接;
检索条件生成单元,用于接收检索关键词并生成检索条件;
传输单元,用于发送所述检索条件给对应专利局检索网站接口;
结果生成单元,用于接收检索结果,并根据所述检索结果中专利文献的ID信息生成结果列表;
信息获取单元,用于根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
全文下载单元,用于根据所述专利文献全文下载路径下载对应的专利文献全文,并与对应的ID信息建立关联;
数据分类单元,用于根据下载后的专利文献对不同国家的专利进行数据分类并记录;
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,用于识别名词短语;
短语翻译模块,根据不同国家的专利文献,通过短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,通过全文翻译模块对全文逐句翻译,并且从短语存储器中取出译文;
输出模块,通过输出模块将翻译结果按原标题顺序输出;
存储模块,用于把输出后的文件与原文件一起存储保存。
5.根据权利要求4所述的专利文献的分类翻译系统,其特征在于:所述短语存储器包含短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811059623.0A CN109033096A (zh) | 2018-09-12 | 2018-09-12 | 专利文献的分类翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811059623.0A CN109033096A (zh) | 2018-09-12 | 2018-09-12 | 专利文献的分类翻译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109033096A true CN109033096A (zh) | 2018-12-18 |
Family
ID=64621416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811059623.0A Withdrawn CN109033096A (zh) | 2018-09-12 | 2018-09-12 | 专利文献的分类翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033096A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487791A (zh) * | 2020-11-27 | 2021-03-12 | 江苏省舜禹信息技术有限公司 | 一种多语言混合智能翻译方法 |
CN112612889A (zh) * | 2020-12-28 | 2021-04-06 | 中科院计算技术研究所大数据研究院 | 一种多语种文献分类方法、装置及存储介质 |
-
2018
- 2018-09-12 CN CN201811059623.0A patent/CN109033096A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487791A (zh) * | 2020-11-27 | 2021-03-12 | 江苏省舜禹信息技术有限公司 | 一种多语言混合智能翻译方法 |
CN112612889A (zh) * | 2020-12-28 | 2021-04-06 | 中科院计算技术研究所大数据研究院 | 一种多语种文献分类方法、装置及存储介质 |
CN112612889B (zh) * | 2020-12-28 | 2021-10-29 | 中科院计算技术研究所大数据研究院 | 一种多语种文献分类方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
Milne et al. | An open-source toolkit for mining Wikipedia | |
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN108549723B (zh) | 一种文本概念分类方法、装置及服务器 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
CN108460150A (zh) | 新闻标题的处理方法及装置 | |
CN108399265A (zh) | 基于搜索的实时热点新闻提供方法及装置 | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
Meng et al. | Mining user reviews: from specification to summarization | |
CN109033096A (zh) | 专利文献的分类翻译方法及系统 | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
CN108932296B (zh) | 一种基于关联数据的小学语文作文素材结构化存储方法与装置 | |
Khemani et al. | A review on reddit news headlines with nltk tool | |
Liu et al. | Radar station: Using kg embeddings for semantic table interpretation and entity disambiguation | |
Kurniawan et al. | Indonesian Lexicon-Based Sentiment Analysis of Online Religious Lectures Review | |
Ohta et al. | CRF-based bibliography extraction from reference strings focusing on various token granularities | |
Di Castro et al. | Automated extractions for machine generated mail | |
CN103034657B (zh) | 文档摘要生成方法和装置 | |
Derczynski et al. | Temporal signals help label temporal relations | |
Khan et al. | Urdu sentiment analysis | |
CN110083654A (zh) | 一种面向国防科技领域的多源数据融合方法及系统 | |
CN115146030A (zh) | 一种基于知识图谱的公务文书写作方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181218 |
|
WW01 | Invention patent application withdrawn after publication |