CN109033096A - 专利文献的分类翻译方法及系统 - Google Patents

专利文献的分类翻译方法及系统 Download PDF

Info

Publication number
CN109033096A
CN109033096A CN201811059623.0A CN201811059623A CN109033096A CN 109033096 A CN109033096 A CN 109033096A CN 201811059623 A CN201811059623 A CN 201811059623A CN 109033096 A CN109033096 A CN 109033096A
Authority
CN
China
Prior art keywords
patent document
information
translation
full text
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811059623.0A
Other languages
English (en)
Inventor
郑舫挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HEFEI HUIZHONG INTELLECTUAL PROPERTY MANAGEMENT Co Ltd
Original Assignee
HEFEI HUIZHONG INTELLECTUAL PROPERTY MANAGEMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HEFEI HUIZHONG INTELLECTUAL PROPERTY MANAGEMENT Co Ltd filed Critical HEFEI HUIZHONG INTELLECTUAL PROPERTY MANAGEMENT Co Ltd
Priority to CN201811059623.0A priority Critical patent/CN109033096A/zh
Publication of CN109033096A publication Critical patent/CN109033096A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及专利文献翻译技术领域,特指一种专利文献的分类翻译方法,所述方法包括:S1、建立与对应的专利局检索网站之间的连接,S2、接收检索关键词并生成检索条件,S3、发送检索条件给对应的检索网站接口,S4、接收检索结果,并根据所述检索结果中专利文献的ID信息生成专利文献列表,S5、根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径。本发明通过对不同国家的专利文献进行分类,并针对专利文献全文,识别出各级标题信息并进行标注,针对标注后的不同国家的专利文献进行不同的翻译,同时翻译后的文件与原文件一同进行存储保存,可以有效的进行翻译和对比,省时省力。

Description

专利文献的分类翻译方法及系统
技术领域
本发明涉及专利文献翻译技术领域,特指一种专利文献的分类翻译方法及系统。
背景技术
机器翻译是使用计算机实现从一种自然语言文本到另一种自然语言文本的翻译;其研究方法分为规则和统计两种;由于规则系统开发周期长,资金和人力的需求大,所以规则系统进展缓慢;相对而言,统计方法开发周期短、便于处理大规模语料等优点而显出优势;在统计机器翻译方法中,基于短语的翻译方法得到充分的发展。
而专利文献是记载专利申请、审査、批准过程中所产生的各种有关文件的文件资料。
在对专利文献进行翻译的时候,对于不同国家的专利文件,在准备翻译的时候没有进行分类,所以在翻译时候,对于不同国家的语种,翻译可能会存在差异,所以翻译后与专利文献的原文件不一致,同时也耗时费力。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种专利文献的分类翻译方法及系统,达到了可以分类翻译,并且不会在翻译中造成差异的效果。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种专利文献的分类翻译方法,所述方法包括:
S1、建立与对应的专利局检索网站之间的连接;
S2、接收检索关键词并生成检索条件;
S3、发送检索条件给对应的检索网站接口;
S4、接收检索结果,并根据所述检索结果中专利文献的ID信息生成专利文献列表;
S5、根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
S6、根据不同国家的专利文献进行分类并且记录;
S7、针对专利文献全文,识别出各级标题信息并进行标注;
S8、针对标注后的不同国家的专利文献进行不同的翻译;
S9、对全文进行词法分析,得到分词和词性标注信息;
S10、以短句为单位进行翻译,并且翻译完毕后,按原文标题顺序输出;
S11、将输出后的文件与原文件一同输出,并进行保存。
进一步的,所述S2步骤还包括存储检索条件。
进一步的,所述S6步骤还包括:将所述专利文献文字信息与对应的ID信息建立关联,将关联的ID信息、国家、专利文献文字信息、专利文献全文存储于同一路径中。
一种专利文献的分类翻译系统,所述系统包括:
接口单元,用于建立与专利局检索网站接口之间的连接;
检索条件生成单元,用于接收检索关键词并生成检索条件;
传输单元,用于发送所述检索条件给对应专利局检索网站接口;
结果生成单元,用于接收检索结果,并根据所述检索结果中专利文献的ID信息生成结果列表;
信息获取单元,用于根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
全文下载单元,用于根据所述专利文献全文下载路径下载对应的专利文献全文,并与对应的ID信息建立关联;
数据分类单元,用于根据下载后的专利文献对不同国家的专利进行数据分类并记录;
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,用于识别名词短语;
短语翻译模块,根据不同国家的专利文献,通过短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,通过全文翻译模块对全文逐句翻译,并且从短语存储器中取出译文;
输出模块,通过输出模块将翻译结果按原标题顺序输出;
存储模块,用于把输出后的文件与原文件一起存储保存。
进一步的,所述短语存储器包含短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
(三)有益效果
据上述技术方案所得本发明的有益效果在于:
(1)、本发明通过对不同国家的专利文献进行分类,并针对专利文献全文,识别出各级标题信息并进行标注,针对标注后的不同国家的专利文献进行不同的翻译,同时翻译后的文件与原文件一同进行存储保存,可以有效的进行翻译和对比,省时省力。
(2)、本发明通过根据当前检索条件获取专利文献列表并统计该检索条件对应的专利文献的数量信息,如此可使得用户先了解检索条件对应的检索结果,以判断该检索结果是否是其想要的内容,并且便于进行专利文献的分类翻译。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法示意图;
图2为本发明系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,本发明提供一种技术方案:一种专利文献的分类翻译方法,方法包括:
S1、建立与对应的专利局检索网站之间的连接;
S2、接收检索关键词并生成检索条件;
S3、发送检索条件给对应的检索网站接口;
S4、接收检索结果,并根据检索结果中专利文献的ID信息生成专利文献列表;
S5、根据结果列表,获取对应ID信息的专利文献文字信息及专利文献全文下载路径;
S6、根据不同国家的专利文献进行分类并且记录;
S7、针对专利文献全文,识别出各级标题信息并进行标注;
S8、针对标注后的不同国家的专利文献进行不同的翻译;
S9、对全文进行词法分析,得到分词和词性标注信息;
S10、以短句为单位进行翻译,并且翻译完毕后,按原文标题顺序输出;
S11、将输出后的文件与原文件一同输出,并进行保存。
S2步骤还包括存储检索条件
S6步骤还包括:将专利文献文字信息与对应的ID信息建立关联,将关联的ID信息、国家、专利文献文字信息、专利文献全文存储于同一路径中。
通过根据当前检索条件获取专利文献列表并统计该检索条件对应的专利文献的数量信息,如此可使得用户先了解检索条件对应的检索结果,以判断该检索结果是否是其想要的内容,并且便于进行专利文献的分类翻译。
一种专利文献的分类翻译系统,系统包括:
接口单元,用于建立与专利局检索网站接口之间的连接;
检索条件生成单元,用于接收检索关键词并生成检索条件;
传输单元,用于发送检索条件给对应专利局检索网站接口;
结果生成单元,用于接收检索结果,并根据检索结果中专利文献的ID信息生成结果列表;
信息获取单元,用于根据结果列表,获取对应ID信息的专利文献文字信息及专利文献全文下载路径;
全文下载单元,用于根据专利文献全文下载路径下载对应的专利文献全文,并与对应的ID信息建立关联;
数据分类单元,用于根据下载后的专利文献对不同国家的专利进行数据分类并记录;
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,用于识别名词短语;
短语翻译模块,根据不同国家的专利文献,通过短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,通过全文翻译模块对全文逐句翻译,并且从短语存储器中取出译文;
输出模块,通过输出模块将翻译结果按原标题顺序输出;
存储模块,用于把输出后的文件与原文件一起存储保存。
短语存储器包含短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
通过对不同国家的专利文献进行分类,并针对专利文献全文,识别出各级标题信息并进行标注,针对标注后的不同国家的专利文献进行不同的翻译,同时翻译后的文件与原文件一同进行存储保存,可以有效的进行翻译和对比,省时省力。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种专利文献的分类翻译方法,其特征在于:所述方法包括:
S1、建立与对应的专利局检索网站之间的连接;
S2、接收检索关键词并生成检索条件;
S3、发送检索条件给对应的检索网站接口;
S4、接收检索结果,并根据所述检索结果中专利文献的ID信息生成专利文献列表;
S5、根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
S6、根据不同国家的专利文献进行分类并且记录;
S7、针对专利文献全文,识别出各级标题信息并进行标注;
S8、针对标注后的不同国家的专利文献进行不同的翻译;
S9、对全文进行词法分析,得到分词和词性标注信息;
S10、以短句为单位进行翻译,并且翻译完毕后,按原文标题顺序输出;
S11、将输出后的文件与原文件一同输出,并进行保存。
2.根据权利要求1所述的专利文献的分类翻译方法,其特征在于:所述S2步骤还包括存储检索条件。
3.根据权利要求1所述的专利文献的分类翻译方法,其特征在于:所述S6步骤还包括:将所述专利文献文字信息与对应的ID信息建立关联,将关联的ID信息、国家、专利文献文字信息、专利文献全文存储于同一路径中。
4.一种专利文献的分类翻译系统,其特征在于:所述系统包括:
接口单元,用于建立与专利局检索网站接口之间的连接;
检索条件生成单元,用于接收检索关键词并生成检索条件;
传输单元,用于发送所述检索条件给对应专利局检索网站接口;
结果生成单元,用于接收检索结果,并根据所述检索结果中专利文献的ID信息生成结果列表;
信息获取单元,用于根据所述结果列表,获取对应所述ID信息的专利文献文字信息及专利文献全文下载路径;
全文下载单元,用于根据所述专利文献全文下载路径下载对应的专利文献全文,并与对应的ID信息建立关联;
数据分类单元,用于根据下载后的专利文献对不同国家的专利进行数据分类并记录;
输入模块,用于接收并分析文献全文,首先识别各级标题,然后进行词法分析,标注分词、词性信息;
短语识别模块,用于识别名词短语;
短语翻译模块,根据不同国家的专利文献,通过短语翻译模块翻译识别名词短语,并保存在短语存储器中;
全文翻译模块,通过全文翻译模块对全文逐句翻译,并且从短语存储器中取出译文;
输出模块,通过输出模块将翻译结果按原标题顺序输出;
存储模块,用于把输出后的文件与原文件一起存储保存。
5.根据权利要求4所述的专利文献的分类翻译系统,其特征在于:所述短语存储器包含短语、分词信息、词性标注信息、识别名词短语标签信息和译文信息。
CN201811059623.0A 2018-09-12 2018-09-12 专利文献的分类翻译方法及系统 Withdrawn CN109033096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811059623.0A CN109033096A (zh) 2018-09-12 2018-09-12 专利文献的分类翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811059623.0A CN109033096A (zh) 2018-09-12 2018-09-12 专利文献的分类翻译方法及系统

Publications (1)

Publication Number Publication Date
CN109033096A true CN109033096A (zh) 2018-12-18

Family

ID=64621416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811059623.0A Withdrawn CN109033096A (zh) 2018-09-12 2018-09-12 专利文献的分类翻译方法及系统

Country Status (1)

Country Link
CN (1) CN109033096A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487791A (zh) * 2020-11-27 2021-03-12 江苏省舜禹信息技术有限公司 一种多语言混合智能翻译方法
CN112612889A (zh) * 2020-12-28 2021-04-06 中科院计算技术研究所大数据研究院 一种多语种文献分类方法、装置及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487791A (zh) * 2020-11-27 2021-03-12 江苏省舜禹信息技术有限公司 一种多语言混合智能翻译方法
CN112612889A (zh) * 2020-12-28 2021-04-06 中科院计算技术研究所大数据研究院 一种多语种文献分类方法、装置及存储介质
CN112612889B (zh) * 2020-12-28 2021-10-29 中科院计算技术研究所大数据研究院 一种多语种文献分类方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
Milne et al. An open-source toolkit for mining Wikipedia
CN110298033B (zh) 关键词语料标注训练提取系统
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
CN107967290A (zh) 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
CN108491512A (zh) 新闻标题的摘要方法及装置
CN108460150A (zh) 新闻标题的处理方法及装置
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
CN108470026A (zh) 新闻标题的句子主干内容提取方法及装置
CN104573030A (zh) 一种文本情绪预测方法及装置
Meng et al. Mining user reviews: from specification to summarization
CN109033096A (zh) 专利文献的分类翻译方法及系统
CN108363700A (zh) 新闻标题的质量评估方法及装置
CN108932296B (zh) 一种基于关联数据的小学语文作文素材结构化存储方法与装置
Khemani et al. A review on reddit news headlines with nltk tool
Liu et al. Radar station: Using kg embeddings for semantic table interpretation and entity disambiguation
Kurniawan et al. Indonesian Lexicon-Based Sentiment Analysis of Online Religious Lectures Review
Ohta et al. CRF-based bibliography extraction from reference strings focusing on various token granularities
Di Castro et al. Automated extractions for machine generated mail
CN103034657B (zh) 文档摘要生成方法和装置
Derczynski et al. Temporal signals help label temporal relations
Khan et al. Urdu sentiment analysis
CN110083654A (zh) 一种面向国防科技领域的多源数据融合方法及系统
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181218

WW01 Invention patent application withdrawn after publication