CN107463554A - 短语挖掘方法及装置 - Google Patents
短语挖掘方法及装置 Download PDFInfo
- Publication number
- CN107463554A CN107463554A CN201610388049.8A CN201610388049A CN107463554A CN 107463554 A CN107463554 A CN 107463554A CN 201610388049 A CN201610388049 A CN 201610388049A CN 107463554 A CN107463554 A CN 107463554A
- Authority
- CN
- China
- Prior art keywords
- phrase
- candidate
- language material
- original language
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种短语挖掘方法及装置,该方法可以包括:从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。通过本申请的技术方案,可以实现对高质量短语的准确挖掘。
Description
技术领域
本申请涉及机器翻译技术领域,尤其涉及一种短语挖掘方法及装置。
背景技术
机器翻译(又称,自动翻译)是利用计算机把一种自然源语言转变为另一种自然目标语言的过程。在相关技术中,提出了一种统计机器翻译方式,即利用统计学的方法对大量的平行语料进行分析,并通过由此构建的机器翻译模型完成翻译操作。
然而,经过实践验证表明,即便通过对大规模数据的自动学习,统计机器翻译的翻译结果仍然存在难以控制的质量问题,尤其是对于已有准确翻译结果的数据,统计机器翻译方式输出的翻译结果可能并不准确,从而无法满足用户的实际应用需求。
发明内容
有鉴于此,本申请提供一种短语挖掘方法及装置,可以实现对高质量短语的准确挖掘。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种短语挖掘方法,包括:
从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;
根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
根据本申请的第二方面,提出了一种短语挖掘装置,包括:
第一抽取单元,从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
分配单元,将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;
确定单元,根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
由以上技术方案可见,本申请通过将候选短语集合分配至若干预设处理对象,使前期机器处理与后期众包处理相结合,从而高效、准确筛选出高质量短语、筛除低质量短语,从而构建出高质量的术语库,以便于建立可实现高翻译质量的翻译记忆系统。
附图说明
图1是本申请一示例性实施例提供的一种短语挖掘方法的流程图。
图2是本申请一示例性实施例提供的一种翻译架构的示意图。
图3是本申请一示例性实施例提供的另一种短语挖掘方法的流程图。
图4-8是本申请一示例性实施例提供的一种切割语料的示意图。
图9是本申请一示例性实施例提供的一种电子设备的结构示意图。
图10是本申请一示例性实施例提供的一种短语挖掘装置的框图。
具体实施方式
由于统计机器翻译存在的问题,相关技术中进一步提出了基于翻译记忆的机器翻译方式。翻译记忆(translation memory)是一种用于存储原文本及其译文的语言数据库,通过事先存储术语的准确译文,使得用户可以直接搜索而获得已有的准确翻译结果。
通过建立翻译记忆系统,可以实现上述的翻译记忆功能。翻译记忆系统可以包括翻译模板库、术语库以及重复出现的句子等;其中,术语库中存储有大量用于描述产品、服务或行业术语的词语、短语等术语,通过对术语库进行单独的管理及完善,可确保译文更加准确,翻译一致性更高。
因此,如何获得有价值、高质量的短语,是创建出优秀术语库的重要因素。在相关技术中,主要通过下述两种方式实现短语挖掘:
一种方式下,由计算机自动挖掘短语。然而,当计算机基于词频特征进行挖掘时,会产生大量相互包含的低质量短语;当计算机采用组块分析的方式进行挖掘时,由于当前组块分析技术的限制,分析结果的准确率很低,容易产生大量噪声数据;当计算机采用数据挖掘的方式进行短语挖掘时,容易造成很多有意义的低频短语被漏掉,且挖掘到的短语仍然会存在大量诸如分类等方面的错误。
另一种方式下,由语言学家人工总结。然而,由于需要面对海量语料,且各个语言学家采用的分析规则并不相同,导致每个语言学家需要分别按照自己制定的分析规则进行处理,导致术语库的建立周期极长,并且不同语言学家得到的术语库之间具有较大差异,往往难以复用。
因此,本申请通过提出新的短语挖掘方案,以解决相关技术中的上述技术问题。为对本申请进行进一步说明,提供下列实施例:
图1是本申请一示例性实施例提供的一种短语挖掘方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤102,从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语。
在本实施例中,可以按照预定义的短语长度,对原始语料进行切分,以获得该原始语料中所有符合该短语长度的短语。在该实施例中,可以预定义多种短语长度,比如短语长度从1至10,然后分别按照每个短语长度对原始语料进行切分,从而尽可能地扩展候选短语集合的覆盖度,确保不会漏掉潜在的高质量短语。
在本实施例中,短语长度为短语中包含的短语元素的数量;举例而言,当原始语料为英文句子时,短语元素为构成英文句子的英文单词,则短语长度为每个短语中包含的英文单词数量。当然,“英文”仅用于举例,本申请的技术方案可以应用于任意语言文字,本申请并不对此进行限制。
具体的,可以针对每个预定义的短语长度,分别创建长度为该预定义的短语长度、移动步长为一个短语元素的短语切分窗口,将该短语切分窗口配置到原始语料中的预设位置,并将该原始语料中对应于短语切分窗口的短语元素抽取为候选短语;那么,当原始语料中存在位于短语切分窗口的任一侧的未抽取短语元素时,可以向该任一侧依次移动短语切分窗口,并在每次移动后将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语,由于短语切分窗口的移动步长为一个短语元素,所以每次移动短语切分窗口时可以使其向该任一侧移动一个短语元素的长度,从而通过若干次移动后即可获得符合当前短语长度的所有候选短语。在该实施例中,通过分别建立与每个预定义的短语长度相符的短语切分窗口,可以分别提取出原始语料中所有符合该短语长度的候选短语,从而构成尽可能丰富的候选短语集合,以确保不会漏掉潜在的高质量短语。
步骤104,将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选。
在本实施例中,可以通过对候选短语集合中的候选短语进行聚簇处理,将具有包含关系的候选短语汇聚为一簇,以得到若干短语簇;为每个短语簇生成相应的筛选任务,然后向每一预设处理对象分配至少一个筛选任务。在该实施例中,通过对候选短语的聚簇处理,使得同一个预设处理对象可以针对相关的候选短语进行统一的挖掘处理,有助于提升处理效率。
在本实施例中,预设处理对象可以为具有合作关系的语言学家等。通过将候选短语集合分配至若干预设处理对象进行人工挖掘处理,一方面每个预设处理对象可以充分发挥语言学家的人工审核的精准特性,另一方面多个预设处理对象可以对大量的候选短语进行分批次处理,解决了单人处理时存在处理周期长、效率低的问题。
步骤106,根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
在本实施例中,可以将同一候选短语分配给至少预设数量的预设处理对象,当判定同一候选短语满足预设质量条件的预设处理对象的数量占比达到预设比例时,确定该同一候选短语满足预设质量条件。在该实施例中,通过由多个预设处理对象对同一候选短语的质量评价,并按照预设比例来确定对该候选短语的最终处理方式,从而不仅限制于单个语言学家的理解和评价,使得最终得到的高质量短语更加符合客观情况。
由以上技术方案可见,本申请通过将候选短语集合分配至若干预设处理对象,使前期机器处理与后期众包处理相结合,一方面可以利用前期机器处理的高速、高效,另一方面可以利用后期人工处理的准确,并且众多预设处理对象的众包处理方式可以确保人工处理的高效性,从而构建出高质量的术语库,以便于建立可实现高翻译质量的翻译记忆系统。
图2是本申请一示例性实施例提供的一种翻译架构的示意图,如图2所示,该架构是基于翻译记忆系统来实现的,该翻译记忆系统基于事先配置的术语库等,并通过“句子泛化”、“整句检索匹配”、“模板检索匹配”、“术语检索匹配”和“变量机翻”等过程,从而将原文自动翻译为相应的译文。
为了保证译文的高质量,需要为翻译记忆系统配置高质量的术语库,即术语库中需要配置有高质量的用于描述产品、服务或行业术语的词语、短语等术语。在本申请的技术方案中,正是针对术语库中的高质量短语的挖掘过程进行改进,以实现高效、准确的短语,下面结合图2所示的架构和图3所示的本申请一示例性实施例提供的另一种短语挖掘方法的流程图,对短语挖掘过程进行详细描述;其中,如图3所示,该短语挖掘方法可以包括以下步骤:
步骤302,获取生语料。
在本实施例中,生语料即收集后尚未加工的语料。在本申请的技术方案中,可以将所有生语料按照领域进行细化分类,然后分别对每个细分领域的生语料按照如图1或图3所示的实施例进行加工处理,得到相应的高质量短语;由于在细分领域的场景下,语言信息的含义相对未分类或更大分类下更加单一,重复使用的专业词汇、短语和句子的占比很高,因而通过分别对各个细化领域的生语料进行处理,可以提升对于短语的挖掘效率与准确性,从而实现更低成本、更佳效果的语言问题解决方案。
步骤304,将生语料预处理为精制语料。
在本实施例中,精制(refined)语料是相对于生语料而言。预处理手段可以包括对于生语料的数据清洗,比如以句子为单位实现去重处理,从而得到如图2所示的不重整句。当然,预处理手段还可以包括其他处理方式,比如:对于生语料的去噪处理;将预设格式的短语元素泛化处理为预设变量,其中该预设格式的短语元素可以包括以下至少之一:数字、颜色、时间等。
针对特定文字类型,比如当生语料为英文时,预处理过程还可以包括:按照句号、问号、感叹号、网页文本标签分句等,获得该生语料对应的英文句库;以及,将所有英文字母均更改为小写形式等。
当然,在上述预处理手段中,可以根据实际情况选取实施一种或多种;那么,在图1所示的实施例中,“原始语料”可以为采用该一种或多种手段进行预处理后得到的精制语料。
步骤306,对精制语料进行切割处理,得到候选短语。
在一实施例中,可以采用相关技术中的方式切割得到候选短语,比如基于TF-IDF词频、组块分析等方式。
在另一实施例中,可以按照预定义的短语长度,对精制语料进行切割,以获得精制语料中所有符合该短语长度的短语。下面对该切割过程进行详细描述:
1)针对每个预定义的短语长度,分别创建长度为该预定义的短语长度、移动步长为一个短语元素的短语切分窗口;其中,短语长度为短语中包含的短语元素的数量。
在本实施例中,可以根据实际情况预定义一个或多个短语长度,那么针对每个预定义的短语长度,均可以按照本申请的切割过程,得到相应的候选短语。
如图4所示,假定精制语料为“two leather straps…silver-toned rollerbuckles.”,为了便于查看,图4中采用虚线框标示出了该句子中的短语元素,即“two”、“leather”、“straps”等各个单词,每个单词分别为一个短语元素,那么各个短语元素(即单词)共同构成了图4所示的句子。在图4所示的实施例中,句子最右侧以句号(即“.”)结尾,该句号并不参与本申请中的切割处理。
2)将短语切分窗口配置到精制语料中的预设位置,并将该精制语料中对应于短语切分窗口的短语元素抽取为候选短语。
在本实施例中,当选取预定义的短语长度为X=1时,短语切分窗口可以为图4所示的黑色加粗的实线框。假定该短语切分窗口位于图4所示的句子最左侧,那么由于短语长度为X=1,该短语切分窗口可以从句子中切割处理得到的候选短语为最左侧的“two”。
3)当精制语料中存在位于短语切分窗口的任一侧的未抽取短语元素时,向该任一侧依次移动短语切分窗口,并在每次移动后将精制语料中对应于短语切分窗口的短语元素抽取为候选短语。
在本实施例中,如图4所示,由于短语切分窗口位于句子的最左侧,因而该短语切分窗口切割得到上述的候选短语“two”后,只有右侧存在未抽取短语元素(即句子中除“two”之外的其他英文单词),所以可以将该短语切分窗口向右侧移动;其中,由于短语切分窗口的移动步长为一个短语元素,因而移动后的短语切分窗口与句子之间的关系如图5所示,即短语切分窗口由最左侧的“two”处向右移动了一个短语元素,到达“leather”处,并切割得到候选短语为“leather”。
由于“leather”左侧的短语元素“two”已经被抽取过,因而只有右侧存在未抽取短语元素,从而通过将短语切分窗口向右侧移动一个短语元素后,可以切割得到候选短语为“straps”;类似地,可以继续切割得到候选短语“loop”、候选短语“through”、……候选短语“silver-toned”、候选短语“roller”和候选短语“buckles”等。
当预定义的短语长度为X>1时,对精制语料的切割处理过程与上述X=1的过程类似;下面以预定义的短语长度为X=2为例,对切割处理过程进行描述:
如图6所示,当选取预定义的短语长度为X=2时,假定该短语切分窗口位于句子最左侧,那么由于短语长度为X=2,该短语切分窗口可以从句子中切割处理得到的候选短语为最左侧的“two leather”。由于短语切分窗口位于句子的最左侧,因而该短语切分窗口切割得到上述的候选短语“two leather”后,只有右侧存在未抽取短语元素(即句子中除“twoleather”之外的其他英文单词),所以可以将该短语切分窗口向右侧移动;其中,由于短语切分窗口的移动步长为一个短语元素,因而移动后的短语切分窗口与句子之间的关系如图7所示,即短语切分窗口由最左侧的“two leather”处向右移动了一个短语元素,到达“leather straps”处,并切割得到候选短语为“leather straps”。
由于“leather straps”左侧的短语元素“two”已经被抽取过,因而只有右侧存在未抽取短语元素,从而通过将短语切分窗口向右侧移动一个短语元素后,可以切割得到候选短语为“straps loop”;类似地,可以继续切割得到候选短语“loop through”、候选短语“through the”、……候选短语“silver-toned roller”、候选短语“roller buckles”等。
举例而言,在本申请的实施例中,可以预定义1≤X≤10,从而分别针对X=1、X=2、……X=10等,形成对应的短语切分窗口,并对精制语料进行切割处理得到相应的候选短语。
此外,虽然图4-7中以短语切分窗口从左向右依次移动和切割为例,但本领域技术人员应该理解的是:短语切分窗口可以将句子的任意位置作为起点,比如图8所示,该短语切分窗口可以位于句子中间的诸如“front and secure”处(以X=3为例),然后分别向左侧和右侧移动,以切割处理得到相应的候选短语;比如,当向左侧移动时可以依次切割得到“the front and”、“through the front”等候选短语,当向右侧移动时可以依次切割得到“and secure with”、“secure with silver-toned”等候选短语,此处不再赘述。
步骤308,初步筛选候选短语。
在一实施例中,可以将候选短语直接分配至预设处理对象,即略去步骤308。
在另一实施例中,可以通过步骤308,由计算机自动对候选短语进行初步筛选,从而去除明显的噪声数据,该初步筛选过程可以包括:
1)去重处理
在本实施例中,尤其是在细分领域中的语料,可能得到大量重复的候选短语,可以通过计算机自动实现去重处理,避免增加无谓的后续筛选工作。
2)词频筛选
在本实施例中,可以仅选取使用频次较高的候选短语,即相关候选短语在生语料中的出现次数达到预设数量,比如该预设数量可以为10,从而避免对过分生僻的短语进行处理。
3)虚词筛除
在本实施例中,可以筛除候选短语集合中包含预设虚词的候选短语。其中,预设虚词可以来源于事先创建的虚词库,比如英文中的“is”、“was”、“are”、“were”等。
类似地,对于一些特殊词汇,比如“and”,在正常的使用习惯中不可能位于句首,因而可以将首个单词为“and”的候选短语筛除。
4)词性辨析
在本实施例中,可以通过对原始语料进行句法分析,确定并筛除候选短语集合中包含非名词性短语元素的候选短语,从而无需预设处理对象人工识别出候选短语中的非名词性短语元素,有助于提升处理效率。
步骤310,分配候选短语。
在本实施例中,可以通过对候选短语集合(即所有候选短语的集合)中的候选短语进行聚簇处理,将具有包含关系的候选短语汇聚为一簇,以得到若干短语簇;然后,为每个短语簇生成相应的筛选任务,并向每一预设处理对象分配至少一个筛选任务。
假定存在n个预设处理对象,而步骤310中生成共m个筛选任务,可以将这m个筛选任务分别分配至n个预设处理对象。如图3所示,当预设处理对象1的短语挖掘能力较弱或效率较低时,可以仅分配一个筛选任务1;当预设处理对象2的短语挖掘能力较强时,可以分配多个筛选任务2~i;类似地,可以向预设处理对象n分配多个筛选任务j~m。然后在后续的步骤312中,通过分别从预设处理对象1、2……n处接收到相应的筛选结果1、2~i……j~m等,以执行短语分类操作。
在该实施例中,通过将具有包含关系的候选短语汇聚为一簇,使得这些候选短语可以由同一预设处理对象进行处理,从而使得同一个预设处理对象可以针对相关的候选短语进行统一的挖掘处理,有助于提升处理效率。举例而言,在图4-8所示的实施例中,针对同一个句子分别针对短语长度X=1~10进行切割,得到的所有候选短语可以认为属于上述的具有包含关系的候选短语,并将其汇聚为一簇。
进一步地,在形成的每个短语簇中,还可以包含预设质量条件,以供相应的预设处理对象参考该预设质量条件进行筛选操作,即判定为高质量短语或低质量短语。举例而言,短语簇可以为表格形式,那么该表格的表头可以包括:“短语”、“使用频次”、“覆盖不重句子数目”、“例句1”、“例句1频次”、“例句2”、“例句2频次”等;其中,“短语”对应的单元格内添加被分配的候选短语,“使用频次”对应的单元格内分别为每一候选短语对应的使用频次,“覆盖不重句子数目”对应的单元格内分别为每一候选短语在生语料中覆盖的不重句子数目,“例句n”和“例句n频次”分别为配置的例句和相应的使用频次。“例句n”和“例句n频次”可以包括预定义的高质量短语,也可以包括预定义的低质量短语,因而“例句n”和“例句n频次”可以视为上述的“预设质量条件”;并且,预设质量条件还可以为其他形式,本申请并不对此进行限制。
当然,还可以事先通过专门的传输方式,将预设质量条件传输至各个预设处理对象,而并非将其通过短语簇进行传输,本申请并不对此进行限制。通过将预设质量条件传输至各个预设处理对象,使得所有预设处理对象可以采用相同的预设质量条件对候选短语进行筛选操作,从而忽略不同语言学家在短语筛选规则上的理解差异化,实现筛选结果的统一。
步骤312,根据接收到预设处理对象返回的筛选结果,执行短语分类操作。
在一实施例中,可以将候选短语分配至若干预设处理对象,比如将10万条候选短语平均分配至100个预设处理对象,那么每个预设处理对象可以被分配并处理1000条候选短语。那么,根据各个预设处理对象返回的筛选结果,即相应预设处理对象将每条被分配的候选短语判定为高质量短语或低质量短语,可以直接据此将10万条候选短语分为“高质量”和“低质量”类别。
在另一实施例中,可以将同一候选短语分配给至少预设数量的多个预设处理对象,比如将每个短语簇同时分配给多个预设处理对象;然后,当判定同一候选短语满足预设质量条件的预设处理对象的数量占比达到预设比例时,可以确定该同一候选短语满足预设质量条件。在该实施例中,通过将同一候选短语分配给多个预设处理对象,可以避免单个预设处理对象的规则偏见或误判,确保最终分类操作的准确性。
举例而言,假定每条候选短语被分配至5个预设处理对象,且预定义的预设比例为80%,那么只有当4个以上的预设处理对象均认为该候选短语为高质量短语时,才将其分类至高质量短语,否则分类至低质量短语。
步骤314,审核短语分类的准确度。
在一实施例中,可以将步骤312分类得到的高质量短语直接输出至术语库,即省去步骤314。
在另一实施例中,可以对根据预设处理对象的筛选结果进行分类操作得到的分类结果进行审核,从而进一步确保最终得到的术语库符合需求,并且避免高质量短语被误筛除。
具体的,可以从被判定为满足预设质量条件的短语(即被判定为高质量的短语)中,抽取第一预设数量的待审核短语;从被判定为不满足预设质量条件的短语(即被判定为低质量的短语)中,抽取第二预设数量的待审核短语;将待审核短语分配至预设审核对象,并接收该预设审核对象返回的审核结果,该审核结果包括预设处理对象对待审核短语的筛选准确度;当筛选准确度达到预设准确度时,将相应的满足预设质量条件的短语输出至翻译记忆系统的术语库。
在该实施例中,预设审核对象的短语挖掘能力可以强于预设处理对象,使得预设审核对象可以对基于预设处理对象的筛选结果实现的分类操作进行评判。通过短语抽检的方式,可以在控制审核工作量的情况下,更为平均地表现出预设处理对象的短语挖掘能力,确保是否存在过多的误判情形;当误判过多时,比如筛选准确度未达到预设准确度,可能需要对候选短语进行重新分配和处理,即重复执行步骤310-312等,直至筛选准确度达到预设准确度后,才将相应的高质量短语输出至翻译记忆系统的术语库,以使其实现高质量的机器翻译。
步骤316,将最终得到的短语输出至术语库。
在本实施例中,结合图2所示的架构,可以进一步通过术语库中的术语生成术语挖掘句子模板;同时,还可以由计算机直接由不重整句生成算法挖掘句子模板;那么,根据术语库中的术语、术语挖掘句子模板、算法挖掘句子模板和不重整句,即可最终用于定制术语对应生语料所属细化领域的翻译操作。
图9示出了根据本申请的一示例性实施例的电子设备的示意结构图。请参考图9,在硬件层面,该电子设备包括处理器902、内部总线904、网络接口906、内存908以及非易失性存储器910,当然还可能包括其他业务所需要的硬件。处理器902从非易失性存储器910中读取对应的计算机程序到内存908中然后运行,在逻辑层面上形成短语挖掘装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图10,在软件实施方式中,该短语挖掘装置可以包括第一抽取单元1002、分配单元1004和确定单元1006。其中:
第一抽取单元1002,从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
分配单元1004,将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;
确定单元1006,根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
可选的,所述第一抽取单元1002具体用于:
按照预定义的短语长度,对所述原始语料进行切分,以获得所述原始语料中所有符合所述短语长度的短语。
可选的,所述第一抽取单元1002具体用于:
针对每个所述预定义的短语长度,分别创建长度为所述预定义的短语长度、移动步长为一个短语元素的短语切分窗口;其中,所述短语长度为短语中包含的短语元素的数量;
将所述短语切分窗口配置到所述原始语料中的预设位置,并将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语;
当所述原始语料中存在位于所述短语切分窗口的任一侧的未抽取短语元素时,向所述任一侧依次移动所述短语切分窗口,并在每次移动后将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语。
可选的,还包括:
第一筛除单元1008,筛除所述候选短语集合中包含预设虚词的候选短语。
可选的,还包括:
第二筛除单元1010,通过对所述原始语料进行句法分析,确定并筛除所述候选短语集合中包含非名词性短语元素的候选短语。
可选的,所述分配单元1004具体用于:
通过对所述候选短语集合中的候选短语进行聚簇处理,将具有包含关系的候选短语汇聚为一簇,以得到若干短语簇;
为每个短语簇生成相应的筛选任务;
向每一预设处理对象分配至少一个筛选任务。
可选的,还包括:
处理单元1012,在从所述原始语料中抽取所述候选短语集合之前,将所述原始语料中的预设格式的短语元素泛化处理为预设变量;
其中,所述预设格式的短语元素包括以下至少之一:数字、颜色、时间。
可选的,
所述分配单元1004具体用于:将同一候选短语分配给至少预设数量的多个预设处理对象;
所述确定单元1006具体用于:当判定同一候选短语满足预设质量条件的预设处理对象的数量占比达到预设比例时,确定所述同一候选短语满足所述预设质量条件。
可选的,还包括:
第二抽取单元1014,从被判定为满足预设质量条件的短语中,抽取第一预设数量的待审核短语;从被判定为不满足预设质量条件的短语中,抽取第二预设数量的待审核短语;
收发单元1016,将所述待审核短语分配至预设审核对象,并接收所述预设审核对象返回的审核结果,所述审核结果包括所述预设处理对象对所述待审核短语的筛选准确度;
输出单元1018,当所述筛选准确度达到预设准确度时,将相应的满足预设质量条件的短语输出至翻译记忆系统的术语库。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (18)
1.一种短语挖掘方法,其特征在于,包括:
从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;
根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
2.根据权利要求1所述的方法,其特征在于,所述从原始语料中抽取候选短语集合,包括:
按照预定义的短语长度,对所述原始语料进行切分,以获得所述原始语料中所有符合所述短语长度的短语。
3.根据权利要求2所述的方法,其特征在于,所述按照预定义的短语长度,对所述原始语料进行切分,以获得所述原始语料中所有符合所述短语长度的短语,包括:
针对每个所述预定义的短语长度,分别创建长度为所述预定义的短语长度、移动步长为一个短语元素的短语切分窗口;其中,所述短语长度为短语中包含的短语元素的数量;
将所述短语切分窗口配置到所述原始语料中的预设位置,并将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语;
当所述原始语料中存在位于所述短语切分窗口的任一侧的未抽取短语元素时,向所述任一侧依次移动所述短语切分窗口,并在每次移动后将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语。
4.根据权利要求1所述的方法,其特征在于,还包括:
筛除所述候选短语集合中包含预设虚词的候选短语。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过对所述原始语料进行句法分析,确定并筛除所述候选短语集合中包含非名词性短语元素的候选短语。
6.根据权利要求1所述的方法,其特征在于,所述将所述候选短语集合分配至若干预设处理对象,包括:
通过对所述候选短语集合中的候选短语进行聚簇处理,将具有包含关系的候选短语汇聚为一簇,以得到若干短语簇;
为每个短语簇生成相应的筛选任务;
向每一预设处理对象分配至少一个筛选任务。
7.根据权利要求1所述的方法,其特征在于,还包括:
在从所述原始语料中抽取所述候选短语集合之前,将所述原始语料中的预设格式的短语元素泛化处理为预设变量;
其中,所述预设格式的短语元素包括以下至少之一:数字、颜色、时间。
8.根据权利要求1所述的方法,其特征在于,
所述将所述候选短语集合分配至若干预设处理对象,包括:将同一候选短语分配给至少预设数量的多个预设处理对象;
所述根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语,包括:当判定同一候选短语满足预设质量条件的预设处理对象的数量占比达到预设比例时,确定所述同一候选短语满足所述预设质量条件。
9.根据权利要求1所述的方法,其特征在于,还包括:
从被判定为满足预设质量条件的短语中,抽取第一预设数量的待审核短语;从被判定为不满足预设质量条件的短语中,抽取第二预设数量的待审核短语;
将所述待审核短语分配至预设审核对象,并接收所述预设审核对象返回的审核结果,所述审核结果包括所述预设处理对象对所述待审核短语的筛选准确度;
当所述筛选准确度达到预设准确度时,将相应的满足预设质量条件的短语输出至翻译记忆系统的术语库。
10.一种短语挖掘装置,其特征在于,包括:
第一抽取单元,从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
分配单元,将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;
确定单元,根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
11.根据权利要求10所述的装置,其特征在于,所述第一抽取单元具体用于:
按照预定义的短语长度,对所述原始语料进行切分,以获得所述原始语料中所有符合所述短语长度的短语。
12.根据权利要求11所述的装置,其特征在于,所述第一抽取单元具体用于:
针对每个所述预定义的短语长度,分别创建长度为所述预定义的短语长度、移动步长为一个短语元素的短语切分窗口;其中,所述短语长度为短语中包含的短语元素的数量;
将所述短语切分窗口配置到所述原始语料中的预设位置,并将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语;
当所述原始语料中存在位于所述短语切分窗口的任一侧的未抽取短语元素时,向所述任一侧依次移动所述短语切分窗口,并在每次移动后将所述原始语料中对应于所述短语切分窗口的短语元素抽取为候选短语。
13.根据权利要求10所述的装置,其特征在于,还包括:
第一筛除单元,筛除所述候选短语集合中包含预设虚词的候选短语。
14.根据权利要求10所述的装置,其特征在于,还包括:
第二筛除单元,通过对所述原始语料进行句法分析,确定并筛除所述候选短语集合中包含非名词性短语元素的候选短语。
15.根据权利要求10所述的装置,其特征在于,所述分配单元具体用于:
通过对所述候选短语集合中的候选短语进行聚簇处理,将具有包含关系的候选短语汇聚为一簇,以得到若干短语簇;
为每个短语簇生成相应的筛选任务;
向每一预设处理对象分配至少一个筛选任务。
16.根据权利要求10所述的装置,其特征在于,还包括:
处理单元,在从所述原始语料中抽取所述候选短语集合之前,将所述原始语料中的预设格式的短语元素泛化处理为预设变量;
其中,所述预设格式的短语元素包括以下至少之一:数字、颜色、时间。
17.根据权利要求10所述的装置,其特征在于,
所述分配单元具体用于:将同一候选短语分配给至少预设数量的多个预设处理对象;
所述确定单元具体用于:当判定同一候选短语满足预设质量条件的预设处理对象的数量占比达到预设比例时,确定所述同一候选短语满足所述预设质量条件。
18.根据权利要求10所述的装置,其特征在于,还包括:
第二抽取单元,从被判定为满足预设质量条件的短语中,抽取第一预设数量的待审核短语;从被判定为不满足预设质量条件的短语中,抽取第二预设数量的待审核短语;
收发单元,将所述待审核短语分配至预设审核对象,并接收所述预设审核对象返回的审核结果,所述审核结果包括所述预设处理对象对所述待审核短语的筛选准确度;
输出单元,当所述筛选准确度达到预设准确度时,将相应的满足预设质量条件的短语输出至翻译记忆系统的术语库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610388049.8A CN107463554B (zh) | 2016-06-02 | 2016-06-02 | 短语挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610388049.8A CN107463554B (zh) | 2016-06-02 | 2016-06-02 | 短语挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107463554A true CN107463554A (zh) | 2017-12-12 |
CN107463554B CN107463554B (zh) | 2021-05-04 |
Family
ID=60545579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610388049.8A Active CN107463554B (zh) | 2016-06-02 | 2016-06-02 | 短语挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463554B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522338A (zh) * | 2018-11-09 | 2019-03-26 | 天津开心生活科技有限公司 | 临床术语挖掘方法、装置、电子设备及计算机可读介质 |
CN110008309A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN110532567A (zh) * | 2019-09-04 | 2019-12-03 | 北京百度网讯科技有限公司 | 短语的提取方法、装置、电子设备及存储介质 |
CN110991901A (zh) * | 2019-12-05 | 2020-04-10 | 上海凯京信达科技集团有限公司 | 任务分配方法、计算机存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890711A (zh) * | 2012-09-13 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种检索排序方法及系统 |
CN103824448A (zh) * | 2014-01-28 | 2014-05-28 | 交通运输部公路科学研究所 | 基于众包模式的交通信息推送服务方法和系统 |
CN103955450A (zh) * | 2014-05-06 | 2014-07-30 | 杭州东信北邮信息技术有限公司 | 一种新词自动提取方法 |
CN104615755A (zh) * | 2015-02-12 | 2015-05-13 | 北京航空航天大学 | 一种基于众包的新型问答系统 |
CN105302894A (zh) * | 2015-10-21 | 2016-02-03 | 中国石油大学(华东) | 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 |
-
2016
- 2016-06-02 CN CN201610388049.8A patent/CN107463554B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890711A (zh) * | 2012-09-13 | 2013-01-23 | 中国人民解放军国防科学技术大学 | 一种检索排序方法及系统 |
CN103824448A (zh) * | 2014-01-28 | 2014-05-28 | 交通运输部公路科学研究所 | 基于众包模式的交通信息推送服务方法和系统 |
CN103955450A (zh) * | 2014-05-06 | 2014-07-30 | 杭州东信北邮信息技术有限公司 | 一种新词自动提取方法 |
CN104615755A (zh) * | 2015-02-12 | 2015-05-13 | 北京航空航天大学 | 一种基于众包的新型问答系统 |
CN105302894A (zh) * | 2015-10-21 | 2016-02-03 | 中国石油大学(华东) | 一种基于并行关联规则的舆情热点跟踪方法与跟踪装置 |
Non-Patent Citations (1)
Title |
---|
JIALU LIU: "Mining Quality Phrases from Massive Text Corpora", 《PROCEEDINGS OF THE 2015 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522338A (zh) * | 2018-11-09 | 2019-03-26 | 天津开心生活科技有限公司 | 临床术语挖掘方法、装置、电子设备及计算机可读介质 |
CN109522338B (zh) * | 2018-11-09 | 2021-01-29 | 天津开心生活科技有限公司 | 临床术语挖掘方法、装置、电子设备及计算机可读介质 |
CN110008309A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN110008309B (zh) * | 2019-03-21 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN110532567A (zh) * | 2019-09-04 | 2019-12-03 | 北京百度网讯科技有限公司 | 短语的提取方法、装置、电子设备及存储介质 |
CN110991901A (zh) * | 2019-12-05 | 2020-04-10 | 上海凯京信达科技集团有限公司 | 任务分配方法、计算机存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107463554B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104331498B (zh) | 一种对互联网用户访问的网页内容自动分类的方法 | |
CN104778158B (zh) | 一种文本表示方法及装置 | |
CN108391446B (zh) | 基于机器学习算法对针对数据分类器的训练语料库的自动提取 | |
CN106598999B (zh) | 一种计算文本主题归属度的方法及装置 | |
CN107463554A (zh) | 短语挖掘方法及装置 | |
CN107463548A (zh) | 短语挖掘方法及装置 | |
CN110990529B (zh) | 企业的行业明细划分方法及系统 | |
CN105912645A (zh) | 一种智能问答方法及装置 | |
CN108563783A (zh) | 一种基于大数据的财务分析管理系统及方法 | |
CN108664635A (zh) | 数据库统计信息的获取方法、装置、设备和存储介质 | |
CN110827131A (zh) | 一种分布式自动特征组合的纳税人信用评估方法 | |
CN107239447A (zh) | 垃圾信息识别方法及装置、系统 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN111797995B (zh) | 一种模型预测样本的解释报告的生成方法及装置 | |
CN104750484A (zh) | 一种基于最大熵模型的代码摘要生成方法 | |
CN112214524A (zh) | 一种基于深度数据挖掘的数据评估系统及评估方法 | |
CN117009518A (zh) | 融合基本属性和文本内容的相似事件判断方法及其应用 | |
KR20210129465A (ko) | 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법 | |
CN107430633A (zh) | 与数据存储系统相关联的经相关优化的代表性内容 | |
CN111782814B (zh) | 一种专利技术主题内容和热度演化的分析方法 | |
CN107358494A (zh) | 一种基于大数据的客户需求信息挖掘方法 | |
CN112182218A (zh) | 文本数据的分类方法及装置 | |
CN111309866A (zh) | 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 | |
JP2020166443A (ja) | データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム | |
Río-Belver et al. | Evolution and scientific visualization of Machine learning field |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211112 Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang Patentee after: Alibaba (China) Network Technology Co., Ltd Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands Patentee before: Alibaba Group Holdings Limited |
|
TR01 | Transfer of patent right |