CN105808529B - 一种语料划分领域的方法和装置 - Google Patents

一种语料划分领域的方法和装置 Download PDF

Info

Publication number
CN105808529B
CN105808529B CN201610134423.1A CN201610134423A CN105808529B CN 105808529 B CN105808529 B CN 105808529B CN 201610134423 A CN201610134423 A CN 201610134423A CN 105808529 B CN105808529 B CN 105808529B
Authority
CN
China
Prior art keywords
bilingual
corpora
word
field
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610134423.1A
Other languages
English (en)
Other versions
CN105808529A (zh
Inventor
陶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201610134423.1A priority Critical patent/CN105808529B/zh
Publication of CN105808529A publication Critical patent/CN105808529A/zh
Application granted granted Critical
Publication of CN105808529B publication Critical patent/CN105808529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

一种语料划分领域‑方法,包括:输入待划分领域的双语语料,所述双语语料包括:双语句对和/或双语段落;根据双语句子语料库,判定所述双语语料所属领域;若判定成功,则反馈其领域;反之,则:提取所述双语语料中的名词性的双语词,并筛选出用于计算词频‑反文档频率TF‑IDF权重的词汇范围,记录筛选出的各双语词所属领域;计算所述词汇范围中,属于同一领域的各所述双语词的TF‑IDF权重并累加获得权重和;若所述权重和大于预设的阈值,则判定所述双语语料属于该领域并反馈划分结果。此外,本文还提供一种语料划分领域的装置。本文所述的方法和装置,能够通过从大数据中提取专业领域的双语语料,提升专业领域的机器翻译效果。

Description

一种语料划分领域的方法和装置
技术领域
本发明属于自然语言处理领域,尤其涉及一种语料划分领域的方法和装置。
背景技术
随着人工智能、机器学习领域的迅速发展,使机器翻译技术迅速成长,以googlo为代表的机器翻译引擎在通用领域表现了很好的翻译效果,但一进入专业领域,比如法律、电力、能源等等专业领域翻译效果不佳,其中一个重要原因是专业领域双语语料的缺失,并且难以对现有的双语语料的领域进行识别和划分。因此如何识别专业领域的双语语料,从而使专业领域的双语语料得到大幅增涨,是当前需要解决的问题。
发明内容
有鉴于此,为了解决现有技术中存在现有技术中缺少专业领域双语语料,难以识别和划分双语语料所属领域的问题,本发明的目的是提出一种语料划分领域的方法。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
在一些可选的实施例中,所述语料划分领域的方法,包括:
输入待划分领域的双语语料,所述双语语料包括:双语句对和/或双语段落;
根据双语句子语料库,判定所述双语语料所属领域;若判定成功,则反馈其领域;反之,则:
提取所述双语语料中的名词性的双语词,并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域;
计算所述词汇范围中,属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和;
若所述权重和大于预设的阈值,则判定所述双语语料属于该领域并反馈划分结果。
本发明另一个目的是提供一种语料划分领域的装置;
在一些可选的实施例中,所述语料划分领域的装置,包括:
输入单元,用于输入待划分领域的双语语料,所述双语语料包括:双语句对和/或双语段落;
第一判定单元,用于根据双语句子语料库,判定所述双语语料所属领域;若判定成功,则反馈其领域;反之,则:
筛选单元,用于提取所述双语语料中的名词性的双语词,并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域;
计算单元,用于计算所述词汇范围中,属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和;
第二判定单元,用于若所述权重和大于预设的阈值,则判定所述双语语料属于该领域并反馈划分结果。
采用上述实施例,可达到以下效果:
能够通过从大数据中提取专业领域的双语语料;
专业领域的机器翻译效果提升,提高用户体验。
为了上述以及相关的目的,一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面,并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显,所公开的实施例是要包括所有这些方面以及它们的等同。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例的一种语料划分领域的方法的流程示意图;
图2示出了本发明实施例的一种语料划分领域的方法的具体流程示意图;
图3示出了本发明实施例的一种语料划分领域的装置的功能结构框图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本发明的这些实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。
图1示出了一种语料划分领域的方法的流程示意图,如图1所示,包括以下步骤:
步骤S101,输入待划分领域的双语语料,所述双语语料包括:双语句对和/或双语段落;
步骤S102,根据双语句子语料库,判定所述双语语料所属领域;
若判定成功,则反馈其领域;反之,则进入步骤S103;
步骤S103,提取所述双语语料中的名词性的双语词,并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域;
步骤S104,计算所述词汇范围中,属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和;若所述权重和大于预设的阈值,则判定所述双语语料属于该领域并反馈划分结果;
在上述实施例中,首先将双语语料通过双语句子语料库判定其所属领域,若无法判定,则通过TF-IDF算法计算双语语料中属于同一领域的双语词的TF-IDF权重和,并根据该值判定双语语料所属领域;其中,所述双语句子语料库是一类包括双语语种及其相应的句子,以及双语句对所属领域的数据库;所述双语句子语料库可以是预置的或从云端下载的,在此不进行限定;待划分领域的双语语料包括双语句对和/或双语段落,通过所述双语句子语料库可以判定双语句对和/或双语段落所属领域;由于双语词汇可以通过例如领域双语词典等数据库直接进行判定,因此在本方案中待划分领域的双语语料对象不含有双语词汇;而在实践中,往往也是双语句对和双语段落难以划分适宜的领域;本实施例实现了对难以划分领域的一类双语语料的领域划分,能快速从大数据中提取专业领域的双语语料,进而推进专业领域的机器翻译效果;
在一些可选的实施例中,在判定所述双语语料所属领域前,还包括:
调取含有领域信息的原始语料数据;
提取所述原始语料数据中的双语数据,生成相应的双语语料库;
其中,所述原始语料数据的双语数据包括:语料所属领域、语种和与其相对应的原始语料;所述原始语料的类型包括:词汇、句子和/或段落;所述相应的双语语料库包括:双语词汇语料库、双语句子语料库和/或双语段落语料库;
本实施例描述了从含有领域信息的原始语料数据(如领域双语词典、领域双语句子语料或领域双语段落语料库,这类含有双语语料所属领域的一类数据)中提取数据并生成具有统一格式的双语语料库的过程,此过程将原先纷杂的各种数据进行搜集和再整理,生成的双语语料库为后续判定双语语料的领域提供基础;
在一些可选的实施例中,判定所述双语语料所属领域的操作,包括:
判断所述双语语料的类型;
若所述双语语料是双语句对,则:
提取所述双语语料中的双语数据,并根据所述双语数据在所述双语句子语料库中匹配,所述双语语料的双语数据包括:语种和与其相对应的句子;若匹配成功,则反馈该双语句子所属领域;若匹配失败,则执行所述提取所述双语语料中的名词性的双语词的操作;
若所述双语语料是双语段落,则:
先将所述双语段落拆分成双语句对,然后执行上述提取双语数据并根据所述双语数据在所述双语句子语料库中匹配的操作;
由于是根据双语句子语料库进行判定,因此若双语语料是双语段落,则先拆成双语句对,再将各双语句对与双语句子语料库进行匹配;值得注意的是,在上述匹配过程中,语种和句子必须全部匹配才算匹配成功;
在一些可选的实施例中,所述筛选用于计算TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域的操作,包括:
将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配,成功匹配的双语词纳入所述词汇范围中,并记录与各成功匹配的双语词的所属领域;
在本实施例中,通过双语词汇库,避除了一类通用词汇,并且将专业领域的双语词汇筛选出来,一个双语句对或双语段落中,可能会筛选出多个领域的至少一个双语词汇,通过这些词汇的TF-IDF权重可以判断双语句对或双语段落所属领域;
在一些可选的实施例中,所述计算属于同一领域的各所述双语词的TF-IDF权重的操作,包括:
若所述双语语料为双语句对,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语句对中出现的次数,idf=所述双语句子语料库中该领域的文档总数/所述双语词在所述双语句子语料库中该领域的出现的次数;
若所述双语语料为双语段落,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语段落中出现的次数,idf=所述双语段落语料库中所述领域的文档总数/所述双语词在所述双语段落语料库中该领域的出现的次数;
在本实施例中,详细介绍了TF-IDF算法中各值的含义和计算方式,其中双语句对的tf一般为1,双语段落的tf可能为多个,idf中所需的值可以通过双语句子语料库或双语段落语料库直接查询得到。
图2示出了一种语料划分领域的方法的具体流程示意图;下面结合图2,对图2中所述的流程进行具体阐述:
步骤S201,根据原始语料数据,生成相应的双语语料库;
例如:
取得“领域双语詞典”(例《德英汉机械与制造工程词典》化学工业出版社),生成数据结构如下:
“领域(例制造工程)语种1语种2词汇1词汇2”
取得传神“领域双语术语库”,例reclamation/吹填,专门就是为港口工程的术语,这个在上述词典中没有,是随着传神译员逐渐积累进来的,生成数据结构如下:
“港口工程英语汉语reclamation吹填”;
以上操作描述了所述双语词汇语料库的建立过程;
对应建立双语句子语料库和双语段落语料库的过程与上述操作相似,可以如下:
取得传神“领域双语句子语料库”,传神目前拥有几十个语料,几百万句对语料,生成数据结构如下:
“领域(例制造工程)语种1语种2句子1句子2”
取得传神“领域双语段落语料库”,传神目前拥有几十个领域,总计上亿字的段落语料库,生成数据结构如下:
“领域(例制造工程)语种1语种2段落1段落2”;
该步骤完成了对现有的已划分领域的双语数据进行提取和整理,生成具有一定数据格式的双语语料库;生成的双语语料库主要用于快速识别未划分领域的双语语料所属领域;
步骤S202,输入双语句对,匹配双语句子语料库;
若匹配成功,则此双语属于匹配成功的那个领域,并反馈匹配结果;
其中,匹配的过程是指双语句对中的语种和相应的句子与双语句子语料库中存储的数据完全匹配;值得注意的是,在本方案中使用的是双语句子语料库进行匹配,使用生成双语句子语料库的“领域双语段落语料库”的效果和原理也是一样的,只是在双语句子语料库中有一定的数据格式,易于快速匹配;
若匹配失败,则进入步骤S203;
步骤S203,提取双语句对中名词性的双语词;
对输入双语句对使用分词(类似中文)/詞干化技术(类似西语),使用语法/语意分析技术,提取句子中名词性的双语词;
步骤S204,确定用于TF-IDF算法的双语词范围;
由于上述步骤中提取出的双语词的范围较大,含有许多通用的名词,因此需要通过现有的含有领域信息的双语词汇数据对双语词的范围进行缩小;
在此步骤中可以根据“领域双语詞典”和/或“领域双语术语库”,将匹配成功的双语词纳入用于TF-IDF算法的双语词范围;或者使用步骤S201中根据“领域双语詞典”和/或“领域双语术语库”整理的双语词汇语料库确定所述双语词范围;在本方案中采用后者,因为后者是在“领域双语詞典”和/或“领域双语术语库”等词汇数据库的基础上生成的数据库,匹配过程更加迅捷;
步骤S205,对匹配的双语词进行TF-IDF运算;
计算同一领域的各双语词的tf/idf权重:
其中,tf=双语词在双语句中出现的次数,idf=“领域双语句子语料库”那一个领域的文档总数/双语词在“领域双语句子语料库”那一个领域的出现的次数;tf和idf中所使用的数据可以从数据库中查询获得;
步骤S206,计算权重和,确定双语句对所属领域;
累加多个双语词匹配出来的tf/idf权重;
将所述权重和与预设的阈值进行比较,若大于该阈值,则匹配相应的领域;其中,不同的领域的阈值不同;
在步骤S204-206中,双语句对中的双语词汇可能匹配出多个领域,分别计算同一领域下的各双语词的tf/idf权重和权重和,然后判断双语句对是否匹配该领域;
步骤S207,输入双语段落,匹配双语句子语料库;
与步骤S202类似,不同的是把双语段落先拆分成多个句子,再将句子与双语句子语料库或“领域双语句子语料库”进行匹配,哪个领域双语都匹配到了,即可认为此双语属于哪个领域;反之,进入步骤S208;
步骤S208,提取双语段落中名词性的双语词;
对输入双语段落使用分词(类似中文)/詞干化技术(类似西语),使用语法/语意分析技术,提取句子中名词性的双语词;
步骤S209,确定用于TF-IDF算法的双语词范围;
本步骤的操作与步骤S204相似,不再赘述;
步骤S210,对匹配的双语词进行TF-IDF运算;
计算同一领域的各双语词的tf/idf权重:
其中,tf=双语词在双语段落中出现的次数,idf=“领域双语段落语料库”那一个领域的文档总数/双语词在“领域双语段落语料库”那一个领域的出现的次数;
步骤S211,计算权重和,确定双语段落所属领域;
与步骤S206相似,不再赘述。
图3示出了本发明实施例的一种语料划分领域的装置的功能结构框图;如图3所示,所述装置300,包括:
输入单元301,用于输入待划分领域的双语语料,所述双语语料包括:双语句对和/或双语段落;
第一判定单元302,用于根据双语句子语料库,判定所述双语语料所属领域;若判定成功,则反馈其领域;反之,则:
筛选单元303,用于提取所述双语语料中的名词性的双语词,并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域;
计算单元304,用于计算所述词汇范围中,属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和;
第二判定单元305,用于若所述权重和大于预设的阈值,则判定所述双语语料属于该领域并反馈划分结果;
在一些可选的实施例中,所述装置300,还包括:
调取单元306,用于所述第一判定单元302判定所述双语语料所属领域前,调取含有领域信息的原始语料数据;
提取单元307提取所述原始语料数据中的双语数据,生成相应的双语语料库;
其中,所述原始语料数据的双语数据包括:语料所属领域、语种和与其相对应的原始语料;所述原始语料的类型包括:词汇、句子和/或段落;所述相应的双语语料库包括:双语词汇语料库、双语句子语料库和/或双语段落语料库;
在一些可选的实施例中,所述第一判定单元302,包括:
判断单元3021,用于判断所述双语语料的类型;
匹配单元3022,用于若所述双语语料是双语句对,则:
提取所述双语语料中的双语数据,并根据所述双语数据在所述双语句子语料库中匹配,所述双语语料的双语数据包括:语种和与其相对应的句子;若匹配成功,则反馈该双语句子所属领域;若匹配失败,则执行所述提取所述双语语料中的名词性的双语词的操作;
若所述双语语料是双语段落,则:
先将所述双语段落拆分成双语句对,然后执行上述提取双语数据并根据所述双语数据在所述双语句子语料库中匹配的操作;
在一些可选的实施例中,所述筛选单元303,包括:
筛选子单元3031,用于将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配,成功匹配的双语词纳入所述词汇范围中,并记录与各成功匹配的双语词的所属领域;
在一些可选的实施例中,所述计算单元304,包括:
第一计算子单元3041,用于若所述双语语料为双语句对,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语句对中出现的次数,idf=所述双语句子语料库中该领域的文档总数/所述双语词在所述双语句子语料库中该领域的出现的次数;
第二计算子单元3042,用于若所述双语语料为双语段落,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语段落中出现的次数,idf=所述双语段落语料库中所述领域的文档总数/所述双语词在所述双语段落语料库中该领域的出现的次数。
综上所述,采用本发明所述的方法和装置,可使得:
能够通过从大数据中提取专业领域的双语语料;
专业领域的机器翻译效果提升,提高用户体验。
本领域技术人员还应当理解,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种语料划分领域的方法,其特征在于,包括:
输入待划分领域的双语语料,所述双语语料包括:双语句对和/或双语段落;
调取含有领域信息的原始语料数据;
提取所述原始语料数据中的双语数据,生成相应的双语语料库;其中,所述原始语料数据的双语数据包括:语料所属领域、语种和与其相对应的原始语料;所述原始语料的类型包括:词汇、句子和/或段落;所述相应的双语语料库包括:双语词汇语料库、双语句子语料库和/或双语段落语料库;
根据所述双语句子语料库,判定所述双语语料所属领域;若判定成功,则反馈其领域;反之,则:
提取所述双语语料中的名词性的双语词,并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域;
计算所述词汇范围中,属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和;
若所述权重和大于预设的阈值,则判定所述双语语料属于该领域并反馈划分结果;
其中,所述判定所述双语语料所属领域的操作,包括:
判断所述双语语料的类型;
若所述双语语料是双语句对,则:
提取所述双语语料中的双语数据,并根据所述双语数据在所述双语句子语料库中匹配,所述双语语料的双语数据包括:语种和与其相对应的句子;
若所述双语语料是双语段落,则:
先将所述双语段落拆分成双语句对,然后执行所述提取所述双语语料中的双语数据,并根据所述双语数据在所述双语句子语料库中匹配的操作;
所述筛选出用于计算TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域的操作,包括:
将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配,成功匹配的双语词纳入所述词汇范围中,并记录与各成功匹配的双语词的所属领域。
2.如权利要求1所述的方法,其特征在于,所述计算所述词汇范围中,属于同一领域的各所述双语词的TF-IDF权重的操作,包括:
若所述双语语料为双语句对,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语句对中出现的次数,idf=所述双语句子语料库中该领域的文档总数/所述双语词在所述双语句子语料库中该领域的出现的次数;
若所述双语语料为双语段落,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语段落中出现的次数,idf=所述双语段落语料库中所述领域的文档总数/所述双语词在所述双语段落语料库中该领域的出现的次数。
3.一种语料划分领域的装置,其特征在于,包括:
输入单元,用于输入待划分领域的双语语料,所述双语语料包括:双语句对和/或双语段落;
调取单元,用于调取含有领域信息的原始语料数据;
提取单元,用于提取所述原始语料数据中的双语数据,生成相应的双语语料库;其中,所述原始语料数据的双语数据包括:语料所属领域、语种和与其相对应的原始语料;所述原始语料的类型包括:词汇、句子和/或段落;所述相应的双语语料库包括:双语词汇语料库、双语句子语料库和/或双语段落语料库;
第一判定单元,用于根据所述双语句子语料库,判定所述双语语料所属领域;若判定成功,则反馈其领域;反之,则:
筛选单元,用于提取所述双语语料中的名词性的双语词,并筛选出用于计算词频-反文档频率TF-IDF权重的词汇范围,记录筛选出的各双语词所属领域;
计算单元,用于计算所述词汇范围中,属于同一领域的各所述双语词的TF-IDF权重并累加获得权重和;
第二判定单元,用于若所述权重和大于预设的阈值,则判定所述双语语料属于该领域并反馈划分结果;
其中,所述第一判定单元,包括:
判断单元,用于判断所述双语语料的类型;
匹配单元,用于若所述双语语料是双语句对,则:
提取所述双语语料中的双语数据,并根据所述双语数据在所述双语句子语料库中匹配,所述双语语料的双语数据包括:语种和与其相对应的句子;
若所述双语语料是双语段落,则:
先将所述双语段落拆分成双语句对,然后执行所述提取所述双语语料中的双语数据,并根据所述双语数据在所述双语句子语料库中匹配的操作;
所述筛选单元,包括:
筛选子单元,用于将提取出的所述双语语料中的名词性的双语词逐一在所述双语词汇语料库中匹配,成功匹配的双语词纳入所述词汇范围中,并记录与各成功匹配的双语词的所属领域。
4.如权利要求3所述的装置,其特征在于,所述计算单元,包括:
第一计算子单元,用于若所述双语语料为双语句对,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语句对中出现的次数,idf=所述双语句子语料库中该领域的文档总数/所述双语词在所述双语句子语料库中该领域的出现的次数;
第二计算子单元,用于若所述双语语料为双语段落,则:
计算同一领域的各所述双语词的tf/idf值;
其中,tf=所述双语词在该双语段落中出现的次数,idf=所述双语段落语料库中所述领域的文档总数/所述双语词在所述双语段落语料库中该领域的出现的次数。
CN201610134423.1A 2016-03-10 2016-03-10 一种语料划分领域的方法和装置 Active CN105808529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610134423.1A CN105808529B (zh) 2016-03-10 2016-03-10 一种语料划分领域的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610134423.1A CN105808529B (zh) 2016-03-10 2016-03-10 一种语料划分领域的方法和装置

Publications (2)

Publication Number Publication Date
CN105808529A CN105808529A (zh) 2016-07-27
CN105808529B true CN105808529B (zh) 2018-06-08

Family

ID=56467947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610134423.1A Active CN105808529B (zh) 2016-03-10 2016-03-10 一种语料划分领域的方法和装置

Country Status (1)

Country Link
CN (1) CN105808529B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563643B (zh) * 2018-03-27 2021-10-01 常熟鑫沐奇宝软件开发有限公司 一种基于人工智能知识图谱的一词多义翻译方法
CN111737560B (zh) * 2020-07-20 2021-01-08 平安国际智慧城市科技股份有限公司 内容搜索方法、领域预测模型训练方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN102081602A (zh) * 2009-11-30 2011-06-01 日电(中国)有限公司 确定未登录词的类别的方法和设备
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914494B (zh) * 2013-01-09 2017-05-17 北大方正集团有限公司 一种微博用户身份识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN102081602A (zh) * 2009-11-30 2011-06-01 日电(中国)有限公司 确定未登录词的类别的方法和设备
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103186612A (zh) * 2011-12-30 2013-07-03 中国移动通信集团公司 一种词汇分类的方法、系统和实现方法
CN103838744A (zh) * 2012-11-22 2014-06-04 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向领域中文文本信息处理的术语识别与抽取研究综述";季培培 等;《图书情报工作》;20100831;第54卷(第16期);124-129 *

Also Published As

Publication number Publication date
CN105808529A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
US9916304B2 (en) Method of creating translation corpus
CN107463553B (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
CN107885737B (zh) 一种人机互动翻译方法及系统
CN105955948B (zh) 一种基于单词语义相似度的短文本主题建模方法
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
CN106021288A (zh) 一种基于自然语言分析的随堂测试答案快速自动分类方法
CN106066867B (zh) 一种提取摘要的方法及装置
Bouhriz et al. Word sense disambiguation approach for Arabic text
CN105701089A (zh) 一种机器翻译错词修正的后编辑处理方法
CN105808529B (zh) 一种语料划分领域的方法和装置
Tkachenko et al. Named entity recognition in estonian
CN111159330A (zh) 一种数据库查询语句的生成方法及装置
CN106777957A (zh) 不平衡数据集上生物医学多参事件抽取的新方法
Vasiljevs et al. Service model for semi-automatic generation of multilingual terminology resources
CN106776555B (zh) 一种基于字模型的评论文本实体识别方法及装置
CN108874791B (zh) 一种基于最小语义块的语义分析与汉英调序方法及系统
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
Rumshisky Crowdsourcing word sense definition
CN107451116A (zh) 一种移动应用内生大数据统计分析方法
CN104636431B (zh) 一种不同领域文档摘要自动抽取及自动优化的方法
CN108984540A (zh) 一种辅助翻译的方法及辅助翻译系统
CN105975487B (zh) 一种app软件用户评论有关性判断方法
CN107220238A (zh) 一种基于混合网络模型的文本对象抽取方法
Hawwari et al. Building an Arabic multiword expressions repository

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 Wuhan, Wuhan City, Hubei, Wuhan City, East Lake New Technology Development Zone Software Park, No. 4, No. five building, E City, Optics Valley.

Applicant before: Wuhan Transn Information Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant