CN104281716B - 平行语料的对齐方法及装置 - Google Patents

平行语料的对齐方法及装置 Download PDF

Info

Publication number
CN104281716B
CN104281716B CN201410601168.8A CN201410601168A CN104281716B CN 104281716 B CN104281716 B CN 104281716B CN 201410601168 A CN201410601168 A CN 201410601168A CN 104281716 B CN104281716 B CN 104281716B
Authority
CN
China
Prior art keywords
alignment
sentence
dictionary
language
priori
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410601168.8A
Other languages
English (en)
Other versions
CN104281716A (zh
Inventor
石磊
曾增烽
林英展
李朋凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410601168.8A priority Critical patent/CN104281716B/zh
Publication of CN104281716A publication Critical patent/CN104281716A/zh
Application granted granted Critical
Publication of CN104281716B publication Critical patent/CN104281716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种平行语料的对齐方法及装置,其中,平行语料的对齐方法包括:获得平行语料,并对平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。上述平行语料的对齐方法及装置实施例,由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。

Description

平行语料的对齐方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种平行语料的对齐方法及装置。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,并将用户检索的相关的信息展示给用户的系统。
具体地,搜索引擎在对用户输入的查询词(query)进行检索时,为了能够返回更多的搜索结果,需要对query中的关键词进行同义替换,并利用替换后的同义词进行检索,这就需要专门进行同义词的挖掘,并保证所挖掘到的同义词有较高的准确率和召回率。
目前,挖掘同义词对的一般做法是:先利用国际商业机器公司(IBM)模型(model)生成一份替换词典,然后利用语言先验知识和替换词典做一次最佳对齐,以生成线上可用的替换词典。
然而,上述方式生成的替换词典准确率低,之后所进行的最佳对齐也不利于后续的进一步优化。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种具有提高替换词典准确率优点的平行语料的对齐方法及装置。
根据本发明实施例的平行语料的对齐方法包括:获得平行语料,并对所述平行语料进行预处理,以获得预处理后的句对;利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及根据规则对齐和统计对齐后的句对获得替换短语,并对所述替换短语进行过滤,以获得替换词典。
上述平行语料的对齐方法实施例,获得平行语料,并对平行语料进行预处理,对预处理后的句对进行规则对齐,并利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐,然后根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典;由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。
根据本发明实施例的平行语料的对齐装置,包括:获得模块,用于获得平行语料,并对所述平行语料进行预处理,以获得预处理后的句对;对齐模块,用于利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及过滤模块,用于根据规则对齐和统计对齐后的句对获得替换短语,并对所述替换短语进行过滤,以获得替换词典。
上述平行语料的对齐装置实施例,通过获得模块获得平行语料,并对上述平行语料进行预处理,通过对齐模块利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;通过过滤模块根据规则对齐和统计对齐后的句对获得替换短语,并对上述替换短语进行过滤,以获得替换词典;由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。
附图说明
图1是本发明一个实施例的平行语料的对齐方法的流程图。
图2是本发明一个实施例的平行句对进行规则对齐后的示意图。
图3是本发明一个实施例的平行语料的对齐装置的结构示意图。
图4是本发明另一个实施例的平行语料的对齐装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本申请实施例的平行语料的对齐方法及装置。
图1是本发明一个实施例的平行语料的对齐方法的流程图。如图1所示,该平行语料的对齐方法包括:
S101,获得平行语料,并对平行语料进行预处理,以获得预处理后的句对。
在该实施例中,平行语料用于挖掘同义词,其由两个含有同义词的句子组成。例如,假定句子A为:teen films,句子B为:girls movie,则句子A和句子B组成了一个平行句对。
其中,对平行语料进行预处理可以包括但不限于对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。其中,词性识别可包括专名识别。
S102,利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐。
其中,S102可以包括:利用语言的先验知识对预处理后的句对进行规则对齐,并利用语言的先验知识对句对中未经规则对齐的词语进行统计对齐。
具体地,利用语言的先验知识对预处理后的句对进行规则对齐可以为:利用预设词典、形态变换信息和归一化信息中的一种或多种进行规则对齐,当然还可以利用其他语言的先验知识进行规则对齐,其中,预设词典可包括但不限于同义词词典、缩写词词典、停用词词典和词根还原(stem)词典中的一种或几种。对一个平行句对进行了规则对齐之后的结果如图2所示。
从图2可以看出,该平行句对中的部分词语未对齐,在该实施例中,可以利用语言的先验知识对未经规则对齐的词语进行统计对齐,此处可以利用融合了语言先验知识的预设模型进行对齐,并输出用于后续过滤的多种特征。具体地,可以使用包含预设特征的IBM模型对句对中未经规则对齐的词语进行对齐,预设特征包括但不限于语义编辑距离、词向量距离和概率信息中的一种或几种。由于IBM模型最初的设计是用于双语语料的对齐,而不是用于同种语料,所以当应用IBM model算法做同义词挖掘时,可以充分利用同一种语料之间的对齐信息,比如编辑距离,而对于不同语料的平行句对,两个词之间编辑距离小并不能说明什么问题;但是对于改写句对而言,我们处理的是同一种语言之间的平行句对,编辑距离小意味着有可能是同一个词、纠错、形态变换。因此,可以在IBM模型中加入语言的先验知识。
在本发明实施例中,在进行规则对齐过程中和应用IBM模型进行统计对齐过程中均利用了语言的先验知识,从而可以提高替换词典的准确率和词语的对齐效率,下面以形态变换为例描述其原因:
did和does的词根都是do,通过形态变换,可以把did变成do,也可以把does变成do,这样就可以知道did和does其实是由同一个词变形而来,故二者能对齐,从而提高了替换词典的准确率和词语的对齐效率。
S103,根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典。
针对规则对齐和统计对齐后的句对,可以利用KM算法或其他对齐算法进行对齐,即进行了一次最佳对齐,以抽取出替换短语,其中,KM算法是一种二分图的最佳匹配算法。由此可见,本发明实施例中的最佳对齐与之前进行的规则对齐和统计对齐是分开实现的,这种实现方式相对于与现有的混合对齐方式,更有利于后续的进一步优化,从而可以提高对齐效率。
之后,可以利用机器学习模型进行过滤,以生成线上可用的替换词典,其中,替换词典中可以包括替换词和替换短语。
上述平行语料的对齐方法实施例,获得平行语料,并对平行语料进行预处理,对预处理后的句对进行规则对齐,并利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐,然后根据规则对齐和统计对齐后的句对获得替换短语,并对替换短语进行过滤,以获得替换词典;由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。
图3是本发明一个实施例的平行语料的对齐装置的结构示意图。如图3所示,该平行语料的对齐装置包括获得模块31、对齐模块32和过滤模块33,其中:
获得模块31用于获得平行语料,并对上述平行语料进行预处理,以获得预处理后的句对;对齐模块32用于利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;过滤模块33用于根据规则对齐和统计对齐后的句对获得替换短语,并对上述替换短语进行过滤,以获得替换词典。
在该实施例中,平行语料用于挖掘同义词,其由两个含有同义词的句子组成。例如,假定句子A为:teen films,句子B为:girls movie,则句子A和句子B组成了一个平行句对。
具体地,获得模块31对平行语料进行预处理可以包括但不限于对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。其中,词性识别可包括专名识别。上述对齐模块32可以包括:第一对齐单元321和第二对齐单元322,如图4所示,其中,第一对齐单元321用于利用语言的先验知识对预处理后的句对进行规则对齐,第二对齐单元322用于利用语言的先验知识对上述句对中未经规则对齐的词语进行统计对齐。
具体地,上述第一对齐单元321可以用于:利用预设词典、形态变换信息和归一化信息中的一种或几种对预处理后的句对进行对齐,其中,上述预设词典包括同义词词典、缩写词词典、停用词词典和stem词典中的一种或几种。上述第二对齐单元322可以用于:使用包含预设特征的预设模型对上述句对中未经规则对齐的词语进行对齐,其中,上述预设特征可以包括但不限于语义编辑距离、词向量距离和概率信息中的一种或几种,预设模型可以为IBM模型。由于IBM模型最初的设计是用于双语语料的对齐,而不是用于同种语料,所以当应用IBM model算法做同义词挖掘时,可以充分利用同一种语料之间的对齐信息,比如编辑距离,而对于不同语料的平行句对,两个词之间编辑距离小并不能说明什么问题;但是对于改写句对而言,我们处理的是同一种语言之间的平行句对,编辑距离小意味着有可能是同一个词。因此,可以在IBM模型中加入语言的先验知识。
在本发明实施例中,在进行规则对齐过程中和应用IBM模型进行统计对齐过程中均利用了语言的先验知识,从而可以提高替换词典的准确率和词语的对齐效率,下面以形态变换为例描述其原因:
did和does的词根都是do,通过形态变换,可以把did变成do,也可以把does变成do,这样就可以知道did和does其实是由同一个词变形而来,故二者能对齐,从而提高了替换词典的准确率和词语的对齐效率。
在该实施例中,在对齐模块完成规则对齐和统计对齐后,过滤模块33可以用于:使用预设算法对规则对齐和统计对齐后的句对进行对齐,并抽取出上述替换短语,然后利用机器学习模型进行过滤,以生成线上可用的替换词典;其中,预设算法可以为KM算法或其他对齐算法,替换词典中可以包括替换词和替换短语,KM算法是一种二分图的最佳匹配算法。
需要说明的是,上述使用预设算法对规则对齐和统计对齐后的句对进行对齐相当于实现了一次最佳对齐,但是本发明实施例中的最佳对齐与之前进行的规则对齐和统计对齐是分开实现的,这种实现方式相对于与现有的混合对齐方式,更有利于后续的进一步优化。
上述平行语料的对齐装置实施例,通过获得模块获得平行语料,并对上述平行语料进行预处理,通过对齐模块利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;通过过滤模块根据规则对齐和统计对齐后的句对获得替换短语,并对上述替换短语进行过滤,以获得替换词典;由于在规则对齐和统计对齐过程中利用了语言的先验知识,所以大大提高了替换词典的准确率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种平行语料的对齐方法,其特征在于,包括:
获得平行语料,并对所述平行语料进行预处理,以获得预处理后的句对;
利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及
根据规则对齐和统计对齐后的句对获得替换短语,并对所述替换短语进行过滤,以获得替换词典;
其中,所述利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐,包括:
利用语言的先验知识对所述句对中未经规则对齐的词语进行统计对齐。
2.如权利要求1所述的方法,其特征在于,所述利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐,还包括:
利用语言的先验知识对预处理后的句对进行规则对齐。
3.如权利要求2所述的方法,其特征在于,所述利用语言的先验知识对预处理后的句对进行规则对齐,包括:
利用预设词典、形态变换信息和归一化信息中的一种或几种对预处理后的句对进行对齐,其中,所述预设词典包括同义词词典、缩写词词典、停用词词典和词根还原词典中的一种或几种。
4.如权利要求2所述的方法,其特征在于,所述利用语言的先验知识对所述句对中未经规则对齐的词语进行统计对齐,包括:
使用包含预设特征的预设模型对所述句对中未经规则对齐的词语进行对齐,所述预设特征包括语义编辑距离、词向量距离和概率信息中的一种或几种。
5.如权利要求1所述的方法,其特征在于,所述根据规则对齐和统计对齐后的句对获得替换短语,包括:
使用预设算法对规则对齐和统计对齐后的句对进行对齐,并抽取出所述替换短语。
6.如权利要求1所述的方法,其特征在于,所述对所述平行语料进行预处理,包括:
对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。
7.一种平行语料的对齐装置,其特征在于,包括:
获得模块,用于获得平行语料,并对所述平行语料进行预处理,以获得预处理后的句对;
对齐模块,用于利用语言的先验知识对预处理后的句对进行规则对齐和统计对齐;以及
过滤模块,用于根据规则对齐和统计对齐后的句对获得替换短语,并对所述替换短语进行过滤,以获得替换词典;
其中,所述对齐模块,包括:
第二对齐单元,用于利用语言的先验知识对所述句对中未经规则对齐的词语进行统计对齐。
8.如权利要求7所述的装置,其特征在于,所述对齐模块,还包括:
第一对齐单元,用于利用语言的先验知识对预处理后的句对进行规则对齐。
9.如权利要求8所述的装置,其特征在于,所述第一对齐单元,具体用于:
利用预设词典、形态变换信息和归一化信息中的一种或几种对预处理后的句对进行对齐,其中,所述预设词典包括同义词词典、缩写词词典、停用词词典和词根还原词典中的一种或几种。
10.如权利要求8所述的装置,其特征在于,所述第二对齐单元,具体用于:
使用包含预设特征的预设模型对所述句对中未经规则对齐的词语进行对齐,所述预设特征包括语义编辑距离、词向量距离和概率信息中的一种或几种。
11.如权利要求7所述的装置,其特征在于,所述过滤模块,具体用于:
使用预设算法对规则对齐和统计对齐后的句对进行对齐,并抽取出所述替换短语。
12.如权利要求7所述的装置,其特征在于,所述获得模块,具体用于:
对获得的平行语料进行数据清洗、分词、词性标注和词性识别中的一种或几种。
CN201410601168.8A 2014-10-30 2014-10-30 平行语料的对齐方法及装置 Active CN104281716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410601168.8A CN104281716B (zh) 2014-10-30 2014-10-30 平行语料的对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410601168.8A CN104281716B (zh) 2014-10-30 2014-10-30 平行语料的对齐方法及装置

Publications (2)

Publication Number Publication Date
CN104281716A CN104281716A (zh) 2015-01-14
CN104281716B true CN104281716B (zh) 2017-10-03

Family

ID=52256589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410601168.8A Active CN104281716B (zh) 2014-10-30 2014-10-30 平行语料的对齐方法及装置

Country Status (1)

Country Link
CN (1) CN104281716B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657351A (zh) * 2015-02-12 2015-05-27 中国科学院软件研究所 双语对齐语料的加工方法及装置
CN104750820A (zh) * 2015-04-24 2015-07-01 中译语通科技(北京)有限公司 一种语料库的过滤方法及装置
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN107943852B (zh) * 2017-11-06 2020-10-30 首都师范大学 中文排比句识别方法及系统
CN109614497B (zh) * 2018-11-14 2021-08-24 金色熊猫有限公司 基于知识图谱的对齐方法、装置及介质
CN110362820B (zh) * 2019-06-17 2022-11-01 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110489624B (zh) * 2019-07-12 2022-07-19 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681983A (zh) * 2011-03-07 2012-09-19 北京百度网讯科技有限公司 一种文本数据的对齐方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Guiding Statistical Word Alignment Models With Prior Knowledge;Yonggang Deng et al;《45th Annual Meeting of the Association of Computational Linguistics》;20070630;第1-8页 *
基于特征融合的单语词对齐方法研究;吕政华;《中国优秀硕士学位论文全文数据库》;20111215(第S1期);第I138-1842页 *

Also Published As

Publication number Publication date
CN104281716A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN104281716B (zh) 平行语料的对齐方法及装置
CN111460787B (zh) 一种话题提取方法、装置、终端设备及存储介质
Malmi et al. Encode, tag, realize: High-precision text editing
Boudin et al. Keyphrase extraction for n-best reranking in multi-sentence compression
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN102591857B (zh) 一种平行语料资源获取方法及系统
CN111160030B (zh) 一种信息抽取方法、装置、及存储介质
CN101398858B (zh) 一种基于本体学习的Web服务语义提取方法
US11194974B2 (en) Teaching syntax by adversarial distraction
CN107247707A (zh) 基于补全策略的企业关联关系信息提取方法和装置
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
CN104182535A (zh) 一种人物关系抽取方法和装置
CN104679850A (zh) 地址结构化方法及装置
Wang Semantic information extraction for software requirements using semantic role labeling
CN106844341A (zh) 基于人工智能的新闻摘要提取方法及装置
CN111159412A (zh) 分类方法、装置、电子设备及可读存储介质
CN111428469A (zh) 面向句式结构图解分析的交互式标注方法和系统
Hahm et al. Named Entity Corpus Construction using Wikipedia and DBpedia Ontology.
CN111611393A (zh) 一种文本分类方法、装置及设备
CN109063184A (zh) 多语言新闻文本聚类方法、存储介质及终端设备
Stewart et al. Icdm 2019 knowledge graph contest: Team uwa
CN110110083A (zh) 一种文本的情感分类方法、装置、设备及存储介质
CN112380877A (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
Siu et al. Semi-automatic acquisition of domain-specific semantic structures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant