CN111540343B - 一种语料识别方法和装置 - Google Patents

一种语料识别方法和装置 Download PDF

Info

Publication number
CN111540343B
CN111540343B CN202010188814.8A CN202010188814A CN111540343B CN 111540343 B CN111540343 B CN 111540343B CN 202010188814 A CN202010188814 A CN 202010188814A CN 111540343 B CN111540343 B CN 111540343B
Authority
CN
China
Prior art keywords
class
state transition
language model
mark
transition diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010188814.8A
Other languages
English (en)
Other versions
CN111540343A (zh
Inventor
吴帅
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010188814.8A priority Critical patent/CN111540343B/zh
Publication of CN111540343A publication Critical patent/CN111540343A/zh
Application granted granted Critical
Publication of CN111540343B publication Critical patent/CN111540343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

本发明提供了一种语料识别方法和装置,涉及计算机技术领域。本发明提供的语料识别方法,通过根据专有名词所属的专有名词类别的类标记,在语料数据中对专有名词进行替换、占位得到第一训练数据,并根据第一训练数据训练得到主语言模型后,依据类标记与对应子语言模型进行合并,而子语言模型是根据类标记对应专有名词类别的训练数据训练得到的。因此,本发明实施例中,将类标记作为专有名词占位符在语料数据中对专有名词进行替换,并在后续模型构建中根据子语言模型将类标记对应专有名词类别的专有名词进行扩展,从而扩大了目标语言模型中专有名词语料的广度,解决了传统方法中专有名词上下文覆盖不全面的问题,提升了专有名词语料识别的准确率。

Description

一种语料识别方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种语料识别方法和装置。
背景技术
在语音文本即语料的识别中,识别的效果通常依赖于对应的语言模型的性能,而语言模型的性能与训练语料的覆盖广度、深度有关。
然而,对于一些比较稀少的专有名词,由于应用较少,因此在挑选训练语料时很难覆盖所有相关的专有名词,从而使得语言模型针对专有名词没有得到充分训练,识别专有名词的准确率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种语料识别方法和装置。
依据本发明的第一方面,提供了一种语料识别方法,该方法包括:
根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型;
获取包含专有名词的语料数据;
将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据;
根据所述第一训练数据进行模型训练,获得主语言模型;
确定所述主语言模型中类标记的第一标记位置;
在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型;
根据所述目标语言模型,对待识别语料中的专有名词进行识别。
依据本发明的第二方面,提供了一种语料识别装置,该装置包括:
第一模型训练模块,用于根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型;
数据采集模块,用于获取包含专有名词的语料数据;
数据处理模块,用于将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据;
第二模型训练模块,用于根据所述第一训练数据进行模型训练,获得主语言模型;
位置确定模块,用于确定所述主语言模型中类标记的第一标记位置;
模型合并模块,用于在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型;
名词识别模块,用于根据所述目标语言模型,对待识别语料中的专有名词进行识别。
本发明实施例中,通过根据专有名词所属的专有名词类别的类标记,在语料数据中对专有名词进行替换、占位得到第一训练数据,并根据第一训练数据训练得到主语言模型后,依据类标记与对应子语言模型进行合并,而子语言模型是根据类标记对应专有名词类别的训练数据训练得到的。因此,本发明实施例中,将类标记作为专有名词占位符在语料数据中对专有名词进行替换,并在后续模型构建中根据子语言模型将类标记对应专有名词类别的专有名词进行扩展,从而扩大了目标语言模型中专有名词语料的广度,解决了传统方法中专有名词上下文覆盖不全面的问题,提升了专有名词语料识别的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种语料识别方法的步骤流程图;
图2是本发明实施例提供的另一种语料识别方法的步骤流程图;
图3是本发明实施例提供的一种第一状态转移图的示意图;
图4是本发明实施例提供的一种第二状态转移图的示意图;
图5是本发明实施例提供的一种第一状态转移图与第二状态转移图合并的过程示意图;
图6是本发明实施例提供的一种语料识别装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种语料识别方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型。
本发明实施例中,专有名词类别可以包括人名、地名、机构名、数字等,其中,人名可以包括中文名、英文名、日文名等,地名可以包括国家名、城市名、景观名等,机构名可以包括政府机构、公益机构等,数字可以包括阿拉伯数字、罗马数字、汉字数字、英文数字等。专有名词用于指代特定的人或物与普通名词对应,如“人”为普通名词,而“张三”为专有名词,指代特定的名为“张三”的人,属于专有名词类别中的人名。
本发明实施例中,子语言模型指针对一种专有名词类别的语料训练得到的语言模型,训练子语言模型的语料数据中仅包括该专有名词类别的语料数据,如人名类别张四、李四、刘德华、杜甫、秦始皇等,地名类别包括上海、纽约、海淀区、明德路等。其中,语言模型是自然语言或者说人类交流语言处理中的核心问题,用于描述自然语言中的特定关系,通常是描述自然语言单元出现的概率,从而根据该概率进行抽象建模得到的数学模型。传统的语言模型可以包括多元模型、指数回归模型和隐马尔科夫模型等,新兴的语言模型可以包括神经网络模型,如循环神经网络模型、长短期记忆模型、注意力模型等。可选地,可以根据不同的专有名词类别对应的语料数据训练上述模型的至少一种作为对应的子语言模型,如采用神经网络模型针对人名专有名词训练对应的人名子语言模型等。另外,可以训练已知的所有专有名词类别分别对应的子语言模型,以保证子语言模型能够更全面的覆盖专有名词的类别。
步骤102、获取包含专有名词的语料数据。
本发明实施例中,语料数据中可以是语音文本数据,可以获取包含专有名词的语料数据,语料数据中应包含专有名词,可选地,语料数据中专有名词的数量和类别不作限制;或者,也可以使得语料数据中包含的专有名词,其专有名词类别的数量小于或等于预置的专有名词类别的数量,从而保证子语言模型能够覆盖语料数据中包含的专有名词的类别;或者,也可以使得语料数据中专有名词,其专有名词类别以及专有名词类别的数量符合对语料数据识别、分类的需求,此时,当语料数据中的专有名词类别超出预置的专有名词类别范围时,可以补充训练该超出范围的专有名词类别的子语言模型。
另外,本发明实施例中不限制各步骤之间的执行顺序,可选地,也可以先执行步骤102获得包含专有名词的语料数据,再执行步骤101根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型。此时,预置的专有名词类别可以根据语料数据中专有名词所属的专有名词类别确定,从而避免子语言模型的遗漏造成的补充训练,降低模型训练的效率,或者子语言模型的冗余造成资源的浪费。
步骤103、将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据。
本发明实施例中,不同专有名词类别可以对应不同的类标记,以在语料数据中对不同的专有名词类别进行区分,可选地,类标记的形式可以是序号、名称等,如人名类别的类标记可以为1、<name>等,地名类别的类标记可以为2、<loc>等,数字类别的类标记可以为3、<num>等。在对语料数据的处理过程中,可以将语料数据中的专有名词按照专有名词类别替换为对应的类标记,将类标记作为对应专有名词的占位符在语料数据中占位,得到对应第一训练数据。如语料数据“小明不来了啊:-)”,其中包括人名类别的专有名词“小明”,因此,将“小明”替换为对应类标记“<name>”,获得对应的第一训练数据“<name>不来了啊:-)”;以此类推,语料数据“北京是国家中心城市、超大城市”经处理后获得对应的第一训练数据“<loc>是国家中心城市、超大城市”。
本发明实施例中,对于语料数据可以进行格式转换、清洗过滤、符号转换等。其中,格式转换可以是对语料数据的编码格式进行统一,可选地,UTF-8(8位元,UniversalCharacter Set/Unicode Transformation Format)是格式针对Unicode的一种可变长度字符编码,可以用来表示Unicode(统一码)标准中的任何字符,由于UTF-8不需要BOM(ByteOrder Mark,字节顺序标记)来表明字节顺序,因此可以将语料数据的编码格式统一转换为无BOM的UTF-8格式;清洗过滤可以包括对语料数据中标点、火星文、无意义字符、特殊字串等,从而避免上述字符对模型训练的干扰;符号转换可以是将语料数据中的表情符号、表情图片等转换为对应含义的代表词语,从而在明确语料数据含义的同时,统一格式提高模型训练的效率。进一步的,还可以对语料数据进行分词,本发明实施例对此不作具体限定。
本发明实施例中,对语料数据的格式转换、清洗过滤、符号转换等可以在类标记占位之前完成,也可以在类标记占位之后完成。在类标记占位之后可以将获得第一训练数据“<name>不来了啊:-)”转换为“<name>不来了啊”、“<loc>是国家中心城市、超大城市”转换为“<loc>是国家中心城市超大城市”;在类标记占位之前,可以将语料数据“小明不来了啊:-)”转换为“小明不来了啊”,“北京是国家中心城市、超大城市”转换为“北京是国家中心城市超大城市”等,以提升后续类标记占位时专有名词的替换效率。
步骤104、根据所述第一训练数据进行模型训练,获得主语言模型。
本发明实施例中,基于类标记对对应专有名词进行占位的第一训练数据进行模型训练获得了主语言模型,其中,主语言模型的训练过程与子语言模型类似,具体可参照步骤101的说明内容,为避免重复,在此不再赘述。
步骤105、确定所述主语言模型中类标记的第一标记位置。
本发明实施例中,由于训练主语言模型的第一训练模型带有类标记,因此,根据类标记可以在主语言模型中确定第一标记位置。其中,第一标记位置标示主语言模型中该类标记对应的专有名词在模型结构中所处的位置。
步骤106、在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型。
本发明实施例中,根据类标记可以确定其对应的专有名词类别,从而根据专有名词类别确定对应的子语言模型,如根据类标记<name>确定人名类别的人名子语言模型为对应的子语言模型。之后,可以将该人名子语言模型合并在主语言模型中的第一标记位置,从而在第一标记位置对语料数据中的人名类别专有名词进行扩充,地名子语言模型、国家名子语言模型等与主语言模型合并的过程与上述过程类似。另外,语料数据中同种类标记可能在多处占位,此时,可以在每一个同种类标记的标记位置合并对应的子语言模型,保证对每一个专有名词都进行了对应扩充。
步骤107、根据所述目标语言模型,对待识别语料中的专有名词进行识别。
本发明实施例中,在获得目标语言模型后即可投入使用对待识别语料进行识别,目标语言模型的第一训练数据中包括类标记以及普通名词、动词、形容词等,因此,可以对待识别语料中的所有字词进行识别。但是,由于专有名词类别对应的子语言模型的语料数据中仅包括该专有名词类别的语料数据,因此,子语言模型能够更大范围的、更精准的识别对应专有名词类别的语料数据,在此基础上,将该子语言模型与主语言模型在第一标记位置上合并,能够有效提升合并得到的目标语言模型的对该专有名词类别识别的准确率。目标语言模型在语料识别中,在满足基本的包括普通名词、动词、形容词等的识别外,还对专有名词的识别表现出更高的识别准确率。另外,在对待识别语料进行识别后,可以根据待识别语料中的专有名词对目标语言模型进行更新,以便保证目标语言模型在长期使用过程中的性能。
综上所述,本发明实施例提供的语料识别方法,通过根据专有名词所属的专有名词类别的类标记,在语料数据中对专有名词进行替换、占位得到第一训练数据,并根据第一训练数据训练得到主语言模型后,依据类标记与对应子语言模型进行合并,而子语言模型是根据类标记对应专有名词类别的训练数据训练得到的。因此,本发明实施例中,将类标记作为专有名词占位符在语料数据中对专有名词进行替换,并在后续模型构建中根据子语言模型将类标记对应专有名词类别的专有名词进行扩展,从而扩大了目标语言模型中专有名词语料的广度,解决了传统方法中专有名词上下文覆盖不全面的问题,提升了专有名词语料识别的准确率。
图2是本发明实施例提供的另一种语料识别方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型。
步骤202、获取包含专有名词的语料数据。
步骤203、将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据。
步骤204、根据所述第一训练数据进行模型训练,获得主语言模型。
步骤205、确定所述主语言模型中类标记的第一标记位置。
步骤206、在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型。
步骤207、根据所述目标语言模型,对待识别语料中的专有名词进行识别。
本发明实施例中,步骤201至步骤207的说明内容与步骤101至步骤107的说明内容类似,为避免重复,在此不再赘述。
可选地,所述步骤201包括:
子步骤S11、根据所述预置的专有名词类别,分别获取每一种专有名词类别对应的第二训练数据。
本发明实施例中,根据预置的专有名词类别可以分别获取对应的第二训练数据,其中,第二训练数据中仅包括对应专有名词类别的语料数据,如人名类别对应的第二训练数据中仅包括人名,地名类别对应的第二训练数据中仅包括地名等,不同的专有名词类别其对应第二训练数据可以通过不同的方式获取,如人名类别可以通过访问互联网上的人名库获取,地名类别可以绘制、测量地图的机构获取;或者也可以采用NER(Named EntityRecognition,命名实体识别)方法,NER能够识别出文本数据中的实体类、时间类和数字类三大类,以及人名、机构名、地名、时间、日期、货币和百分比等七小类命名实体,可选地,可以通过隐马尔可夫模型、深度学习算法模型等实现命名实体识别;或者,在通过对语料数据进行聚类获得预置的专有名词类别时,可以将聚类的专有名词作为该专有名词类别的第二训练数据,其中,聚类的语料数据可以是用于训练主语言模型的语料数据,也可以是其他的语料数据。
子步骤S12、根据所述每一种专有名词类别对应的第二训练数据,分别训练不同类别的子语言模型。
本发明实施例中,根据获取到的单一专有名词类别的第二训练数据,分别训练不同类别的子语言模型。由于仅通过单一专有名词类别的第二训练数据训练得到,该子语言模型可以对对应专有名词类别的专有名词进行高效、准确的识别。
可选地,所述步骤205包括:
子步骤S21、将所述主语言模型转换为第一状态转移图,所述第一状态转移图中包括表示所述第一训练数据状态变化的边。
本发明实施例中,第一状态转移图指由主语言模型转换得到的状态转移图,其中,状态转移图包括节点、边、箭头。节点用于表示状态,边表示转移即状态的变化,边上存储有模型的输入、输出和权重信息等,箭头表示转移方向。在本发明实施例的第一状态转移图中节点可以简单理解为分词的间隔,边可以简单理解为第一训练数据中不同的分词。
图3是本发明实施例中一种第一状态转移图的示意图,如图3所示,第一状态转移图中包括表示分词间隔的圈(节点),以及表示第一训练数据中分词状态变化的边,箭头表示模型中第一训练数据状态转移的方向,虚线表示省略即不限制第一状态转移图中边的个数,通过第一状态转移图可以清晰、明确的看出主语言模型的模型结构、输入输出等信息。
子步骤S22、遍历所述第一状态转移图中带有所述类标记的边,记为标记边。
本发明实施例中,由于第一状态转移图中所有的边都与主语言模型中的第一训练数据不同分词对应,因此,对应占位的类标记,在第一状态转移图中有对应的标记边。在获得第一状态转移图后,对第一状态转移图中所有的边进行遍历,确定其中所有带有类标记的边记为标记边,从而确定主语言模型的第一状态转移图中专有名词类别对应的边。如图3所示,边301包括类标记<num>,因此,将边301记为一个标记边。
子步骤S23、根据所述标记边的位置确定所述第一标记位置。
本发明实施例中,根据在第一状态转移图中记录的标记边,可以确定第一状态转移图中的第一标记位置,从而将标记边的类标记对应的子语言模型合并到对应的第一标记位置,达到对类标记对应的专有名词类别进行专有名词语料的扩充。
可选地,所述步骤206包括:
子步骤S31、将所述类标记对应的子语言模型转换为第二状态转移图,所述第二状态转移图中包括表示所述第二训练数据状态变化的边。
本发明实施例中,子步骤S31对子语言模型向第一状态转移图转换的步骤,与步骤子步骤S21中对主语言模型向第二状态转移图转换的步骤类似,可对应参考,为避免重复,在此不再赘述。
图4是本发明实施例中一种第二状态转移图的示意图,如图4所示,第二状态转移图中包括表示分词间隔的圈(节点),以及表示第二训练数据中分词状态变化的边,箭头表示模型中第二训练数据状态转移的方向,虚线表示省略即不限制第二状态转移图中边的个数,通过第二状态转移图可以清晰、明确的看出子语言模型的模型结构、输入输出等信息。
子步骤S32、根据所述第二状态转移图中边的位置确定第二标记位置。
本发明实施例中,由于第二状态转移图对应的子语言模型,其第二训练数据中仅包括对应专有名词类别的语料数据,因此,可以认为第二状态转移图中所有的边都表示同一种专有名词的状态变化,从而可以根据第二状态转移图中所有的边确定第二标记位置,第二标记位置用于确定与第一状态转移图合并的方向、位置等。
子步骤S33、根据所述第一标记位置,以及所述第二标记位置,对所述第一状态转移图和所述第二状态转移图进行合并,获得第三状态转移图。
本发明实施例中,通过图合并的方式,在第一状态转移图的第一标记位置,按照第二状态转移图中的第二标记位置,对第一状态转移图和第二状态转移图进行合并,获得第三状态转移图,第三状态转移图中包括第一状态转移图,以及第一状态转移图中标记边的第一标记位置合并的对应的第二状态转移图。
子步骤S34、将所述第三状态转移图对应的语言模型作为目标语言模型。
本发明实施例中,第三状态转移图表示了不同于主语言模型、子语言模型的第三种语言模型,该第三种语言模型可以作为目标语言模型进行后续语料识别,能够在满足基本语料识别功能的基础上,有效提升语料数据中专有名词的识别准确率。
可选地,所述第一标记位置包括第一起始位置和第一终止位置,所述第二标记位置包括第二起始位置和第二终止位置。
本发明实施例中,第一标记位置可以为标记边的第一起始位置、第一终止位置,用于表示该主语言模型中针对该分词的输入、输出过程。可选地,可以根据标记边箭头的方向,将标记边两端的节点分别作为标记边的第一起始位置和第一终止位置,从而确定标记边的第一标记位置。
本发明实施例中,由于第二状态转移图对应的子语言模型,其第二训练数据中仅包括对应专有名词类别的语料数据,因此,可以认为根据边箭头的方向,第二状态转移图中整张图边的起始位置为第二起始位置,第二状态转移图中整张图边的终止位置为第二终止位置,从而确定第二状态转移图中边的第二标记位置。
可选地,所述子步骤S34包括:
子步骤S341、从所述第一起始位置复制所述标记边,复制的标记边指向所述第二起始位置。
本发明实施例中,在对第一状态转移图和第二状态转移图合并时,可以从第一起始位置复制该标记边,该标记边到第二终止位置结束。并将该标记边指向第二转移图中的第二起始位置,使得第一状态转移图在第一标记位置与第二状态转移图初步合并。
子步骤S342、从所述第二终止位置增加空白边,增加的空白边指向所述第一终止位置,从而合并所述第一状态转移图和所述第二状态转移图,获得第三状态转移图。
本发明实施例中,空白边指边上不表示任何分词的输入、输出等,仅起到连接作用的边,在第二终止位置增加空白边,并使得空白边指向第一终止位置,从而连接第二终止位置,从而使得第一起始位置与第二起始位置通过标记边相连,第一终止位置与第二终止位置通过空白边相连。此时,由于第二起始位置与第二终止位置由原本第二状态转移图中的边相连,因此,第二状态转移图已合并在第一状态转移图的第一标记位置,从而获得了第三状态转移图。
图5是本发明实施例中一种第一状态转移图与第二状态转移图合并的过程示意图,如图5所示,在第一状态转移图501中,将标记边记为5011,用符号<arc1>表示,标记边的第一起始位置记为5012,用符号<start1>表示,第一终止位置记为5013,用符号<end1>;在第二状态转移图502中的第二起始位置记为5021,用符号<start2>表示,第二终止位置记为5022,用符号<end2>表示。
在第一状态转移图501中,从<start1>5012开始复制<arc1>5011,并将复制的<arc1>5011的箭头指向<start2>5021。之后,再从<end2>5022增加空白边<arc2>5023,并将<arc2>5023的箭头指向<end1>5013,从而合并第一状态转移图501和第二状态转移图502。
本发明实施例中,也可以不生成状态转移图对主语言模型和子语言模型直接进行合并,或根据主语言模型和子语言模型直接生成类似的第三状态转移图,本发明实施例中对模型合并的方式不作具体限制。
可选地,所述步骤202之前,所述方法还可以包括:
步骤208、确定至少一个预置的专有名词类别。
本发明实施例中,预置的专有名词类别可以在子语言模型训练之前预先设置,可选地,可以由用户根据语料数据中专有名词类别识别的需求进行预置,如用户对语料数据中的专有名词需要区分出人名、地名两类,则确定预置的专有名词类别为人名、地名;或者,也可以根据历史语料识别的结果中获得专有名词类别,确定预置的专有名词类别;或者,也可以通过对语料数据中的专有名词进行聚类得到,本发明实施例对此不作具体限制。
步骤209、对所述专有名词类别进行标记,获得与所述专有名词类别一一对应的类标记。
步骤210、建立所述专有名词类别与所述类标记之间的映射关系。
本发明实施例中,在确定预置的专有名词类别后,可以分别对专有名词类别进行标记,获得类标记,该类标记只需保证唯一对应专有名词类别即可,本发明实施例对类标记的形式不作具体限定。根据类标记与专有名词的一一对应关心,可以建立专有名词类别与类标记之间的映射关系,从而便于后续类标记的替换,以及模型的合并。
可选地,所述步骤203包括:
步骤2031、提取所述语料数据中的专有名词,识别所述专有名词对应的专有名词类别。
步骤2032、根据所述映射关系,确定所述专有名词类别对应的类标记。
步骤2033、根据所述类标记,对所述语料数据中的专有名词进行替换,获得第一训练数据。
本发明实施例中,可以对语料数据中的专有名词进行类别识别、提取、替换,其中,可以采用预先训练的语言模型对语料数据中的专有名词类别进行识别,从而替换为与专有名词类别具有映射关系的类标记,或者,也可以通过人工筛选的方式对语料数据中的专有名词进行提取,本发明实施例对提取语料数据中专有名词的方法不做具体限定。
综上所述,本发明实施例提供的语料识别方法,通过根据专有名词所属的专有名词类别的类标记,在语料数据中对专有名词进行替换、占位得到第一训练数据,并根据第一训练数据训练得到主语言模型后,依据类标记与对应子语言模型进行合并,而子语言模型是根据类标记对应专有名词类别的训练数据训练得到的。因此,本发明实施例中,将类标记作为专有名词占位符在语料数据中对专有名词进行替换,并在后续模型构建中根据子语言模型将类标记对应专有名词类别的专有名词进行扩展,从而扩大了目标语言模型中专有名词语料的广度,解决了传统方法中专有名词上下文覆盖不全面的问题,提升了专有名词语料识别的准确率。
图6是本发明实施例提供的一种语料识别装置的结构框图,如图6所示,该装置600可以包括:
第一模型训练模块601,用于根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型。
数据采集模块602,用于获取包含专有名词的语料数据。
数据处理模块603,用于将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据。
第二模型训练模块604,用于根据所述第一训练数据进行模型训练,获得主语言模型。
位置确定模块605,用于确定所述主语言模型中类标记的第一标记位置。
模型合并模块606,用于在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型。
名词识别模块607,用于根据所述目标语言模型,对待识别语料中的专有名词进行识别。
可选地,所述第一模型训练模块601包括:
第二训练数据采集子模块,用于根据所述预置的专有名词类别,分别获取每一种专有名词类别对应的第二训练数据;
子语言模型训练子模块,用于根据所述每一种专有名词类别对应的第二训练数据,分别训练不同类别的子语言模型。
可选地,所述位置确定模型605包括:
第一转换子模块,用于将所述主语言模型转换为第一状态转移图,所述第一状态转移图中包括表示所述第一训练数据状态变化的边;
标记边确定子模块,用于遍历所述第一状态转移图中带有所述类标记的边,记为标记边;
第一标记位置确定子模块,用不根据所述标记边的位置确定所述第一标记位置。
可选地,所述模型合并模块606,包括:
第二转换子模块,用于将所述类标记对应的子语言模型转换为第二状态转移图,所述第二状态转移图中包括表示所述第二训练数据状态变化的边;
第二标记位置确定子模块,用于根据所述第二状态转移图中边的位置确定第二标记位置;
图合并子模块,用于根据所述第一标记位置,以及所述第二标记位置,对所述第一状态转移图和所述第二状态转移图进行合并,获得第三状态转移图;
目标模型确定子模块,还用于将所述第三状态转移图对应的语言模型作为目标语言模型。
可选地,所述第一标记位置包括第一起始位置和第一终止位置,所述第二标记位置包括第二起始位置和第二终止位置。
可选地,所述图合并子模块包括:
标记边复制单元,用于从所述第一起始位置复制所述标记边,复制的标记边指向所述第二起始位置;
空白边增加单元,用于从所述第二终止位置增加空白边,增加的空白边指向所述第一终止位置,从而合并所述第一状态转移图和所述第二状态转移图,获得第三状态转移图。
可选地,所述装置还包括:
预置类别确定模块,用于确定至少一个预置的专有名词类别;
预置类别标记模块,用于对所述专有名词类别进行标记,获得与所述专有名词类别一一对应的类标记;
类别标记对应模块,用不建立所述专有名词类别与所述类标记之间的映射关系。
可选地,所述数据处理模块603,包括:
名词类别识别子模块,用不提取所述语料数据中的专有名词,识别所述专有名词对应的专有名词类别;
类标记确定子模块,用于根据所述映射关系,确定所述专有名词类别对应的类标记;
数据处理子模块,用于根据所述类标记,对所述语料数据中的专有名词进行替换,获得第一训练数据。
综上所述,本发明实施例提供的语料识别装置,通过根据专有名词所属的专有名词类别的类标记,在语料数据中对专有名词进行替换、占位得到第一训练数据,并根据第一训练数据训练得到主语言模型后,依据类标记与对应子语言模型进行合并,而子语言模型是根据类标记对应专有名词类别的训练数据训练得到的。因此,本发明实施例中,将类标记作为专有名词占位符在语料数据中对专有名词进行替换,并在后续模型构建中根据子语言模型将类标记对应专有名词类别的专有名词进行扩展,从而扩大了目标语言模型中专有名词语料的广度,解决了传统方法中专有名词上下文覆盖不全面的问题,提升了专有名词语料识别的准确率。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (6)

1.一种语料识别方法,其特征在于,所述方法包括:
根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型;
获取包含专有名词的语料数据;
将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据;
根据所述第一训练数据进行模型训练,获得主语言模型;
确定所述主语言模型中类标记的第一标记位置;
在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型;
根据所述目标语言模型,对待识别语料中的专有名词进行识别;
所述根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型,包括:
根据所述预置的专有名词类别,分别获取每一种专有名词类别对应的第二训练数据;
根据所述每一种专有名词类别对应的第二训练数据,分别训练不同类别的子语言模型;
所述确定所述主语言模型中类标记的第一标记位置,包括:
将所述主语言模型转换为第一状态转移图,所述第一状态转移图中包括表示所述第一训练数据状态变化的边;
遍历所述第一状态转移图中带有所述类标记的边,记为标记边;
根据所述标记边的位置确定所述第一标记位置;
所述在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型,包括:
将所述类标记对应的子语言模型转换为第二状态转移图,所述第二状态转移图中包括表示所述第二训练数据状态变化的边;
根据所述第二状态转移图中边的位置确定第二标记位置;
根据所述第一标记位置,以及所述第二标记位置,对所述第一状态转移图和所述第二状态转移图进行合并,获得第三状态转移图;
将所述第三状态转移图对应的语言模型作为目标语言模型。
2.根据权利要求1所述的方法,其特征在于,所述第一标记位置包括第一起始位置和第一终止位置,所述第二标记位置包括第二起始位置和第二终止位置,所述根据所述第一标记位置,以及所述第二标记位置,对所述第一状态转移图和所述第二状态转移图进行合并,获得第三状态转移图,包括:
从所述第一起始位置复制所述标记边,复制的标记边指向所述第二起始位置;
从所述第二终止位置增加空白边,增加的空白边指向所述第一终止位置,从而合并所述第一状态转移图和所述第二状态转移图,获得第三状态转移图。
3.根据权利要求1所述的方法,其特征在于,所述获取包含专有名词的语料数据之前,所述方法还包括:
确定至少一个预置的专有名词类别;
对所述专有名词类别进行标记,获得与所述专有名词类别一一对应的类标记;
建立所述专有名词类别与所述类标记之间的映射关系;
所述将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据,包括:
提取所述语料数据中的专有名词,识别所述专有名词对应的专有名词类别;
根据所述映射关系,确定所述专有名词类别对应的类标记;
根据所述类标记,对所述语料数据中的专有名词进行替换,获得第一训练数据。
4.一种语料识别装置,其特征在于,所述装置包括:
第一模型训练模块,用于根据预置的专有名词类别,训练所述专有名词类别对应的子语言模型;
数据采集模块,用于获取包含专有名词的语料数据;
数据处理模块,用于将所述语料数据中的专有名词按照所述专有名词类别替换为对应的类标记,获得第一训练数据;
第二模型训练模块,用于根据所述第一训练数据进行模型训练,获得主语言模型;
位置确定模块,用于确定所述主语言模型中类标记的第一标记位置;
模型合并模块,用于在所述第一标记位置合并所述类标记对应的子语言模型,获得目标语言模型;
名词识别模块,用于根据所述目标语言模型,对待识别语料中的专有名词进行识别;
所述第一模型训练模块包括:
第二训练数据采集子模块,用于根据所述预置的专有名词类别,分别获取每一种专有名词类别对应的第二训练数据;
子语言模型训练子模块,用于根据所述每一种专有名词类别对应的第二训练数据,分别训练不同类别的子语言模型;
所述位置确定模块,包括:
第一转换子模块,用于将所述主语言模型转换为第一状态转移图,所述第一状态转移图中包括表示所述第一训练数据状态变化的边;
标记边确定子模块,用于遍历所述第一状态转移图中带有所述类标记的边,记为标记边;
第一标记位置确定子模块,用不根据所述标记边的位置确定所述第一标记位置;
所述模型合并模块,包括:
第二转换子模块,用于将所述类标记对应的子语言模型转换为第二状态转移图,所述第二状态转移图中包括表示所述第二训练数据状态变化的边;
第二标记位置确定子模块,用于根据所述第二状态转移图中边的位置确定第二标记位置;
图合并子模块,用于根据所述第一标记位置,以及所述第二标记位置,对所述第一状态转移图和所述第二状态转移图进行合并,获得第三状态转移图;
目标模型确定子模块,还用于将所述第三状态转移图对应的语言模型作为目标语言模型。
5.根据权利要求4所述的装置,其特征在于,所述第一标记位置包括第一起始位置和第一终止位置,所述第二标记位置包括第二起始位置和第二终止位置,所述图合并子模块包括:
标记边复制单元,用于从所述第一起始位置复制所述标记边,复制的标记边指向所述第二起始位置;
空白边增加单元,用于从所述第二终止位置增加空白边,增加的空白边指向所述第一终止位置,从而合并所述第一状态转移图和所述第二状态转移图,获得第三状态转移图。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
预置类别确定模块,用于确定至少一个预置的专有名词类别;
预置类别标记模块,用于对所述专有名词类别进行标记,获得与所述专有名词类别一一对应的类标记;
类别标记对应模块,用不建立所述专有名词类别与所述类标记之间的映射关系;
所述数据处理模块,包括:
名词类别识别子模块,用不提取所述语料数据中的专有名词,识别所述专有名词对应的专有名词类别;
类标记确定子模块,用于根据所述映射关系,确定所述专有名词类别对应的类标记;
数据处理子模块,用于根据所述类标记,对所述语料数据中的专有名词进行替换,获得第一训练数据。
CN202010188814.8A 2020-03-17 2020-03-17 一种语料识别方法和装置 Active CN111540343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010188814.8A CN111540343B (zh) 2020-03-17 2020-03-17 一种语料识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010188814.8A CN111540343B (zh) 2020-03-17 2020-03-17 一种语料识别方法和装置

Publications (2)

Publication Number Publication Date
CN111540343A CN111540343A (zh) 2020-08-14
CN111540343B true CN111540343B (zh) 2021-02-05

Family

ID=71978507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010188814.8A Active CN111540343B (zh) 2020-03-17 2020-03-17 一种语料识别方法和装置

Country Status (1)

Country Link
CN (1) CN111540343B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN106486115A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进神经网络语言模型的方法和装置及语音识别方法和装置
CN107154260A (zh) * 2017-04-11 2017-09-12 北京智能管家科技有限公司 一种领域自适应语音识别方法和装置
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
US10186257B1 (en) * 2014-04-24 2019-01-22 Nvoq Incorporated Language model for speech recognition to account for types of disfluency
CN109388743A (zh) * 2017-08-11 2019-02-26 阿里巴巴集团控股有限公司 语言模型的确定方法和装置
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909972B2 (en) * 2017-11-07 2021-02-02 Intel Corporation Spoken language understanding using dynamic vocabulary

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971675A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
US10186257B1 (en) * 2014-04-24 2019-01-22 Nvoq Incorporated Language model for speech recognition to account for types of disfluency
CN106486115A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进神经网络语言模型的方法和装置及语音识别方法和装置
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN107154260A (zh) * 2017-04-11 2017-09-12 北京智能管家科技有限公司 一种领域自适应语音识别方法和装置
CN109388743A (zh) * 2017-08-11 2019-02-26 阿里巴巴集团控股有限公司 语言模型的确定方法和装置
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN108734210A (zh) * 2018-05-17 2018-11-02 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN110853631A (zh) * 2018-08-02 2020-02-28 珠海格力电器股份有限公司 智能家居的语音识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Evaluating and combining name entity recognition systems;Ridong Jiang;《Proceedings of the Sixth Named Entity Workshop, joint with 54th ACL》;20161231;21-27 *
Named entity recognition and classification using context Hidden Markov Model;Branimir T. Todorovic;《2008 9th Symposium on Neural Network Applications in Electrical Engineering》;20081231;全文 *
基于SVM和CRF的双层模型中文机构名识别;黄德根;《大连理工大学学报》;20100915(第5期);782-787 *
适应于不同领域的中文分词方法研究与实现;修驰;《中国博士学位论文全文数据库》;20140315(第3期);I136-45 *

Also Published As

Publication number Publication date
CN111540343A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
CN109241540B (zh) 一种基于深度神经网络的汉盲自动转换方法和系统
CN108124477A (zh) 基于伪数据改进分词器以处理自然语言
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN110298039B (zh) 事件地的识别方法、系统、设备及计算机可读存储介质
CN111563375B (zh) 一种文本生成方法和装置
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN111488468A (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN113722490A (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN113297379A (zh) 一种文本数据多标签分类方法及装置
Alshutayri et al. A social media corpus of Arabic dialect text
CN111540343B (zh) 一种语料识别方法和装置
CN111291569A (zh) 多类别实体识别模型的训练方法及装置
CN112765359B (zh) 一种基于少样本的文本分类方法
CN114997167A (zh) 简历内容提取方法及装置
CN104866607B (zh) 一种东巴文释读数据库建立方法
CN111209924B (zh) 一种用于对医嘱进行自动提取的系统及应用
CN113705194A (zh) 简称抽取方法及电子设备
CN113627191A (zh) 一种气象预警样本语义自动化标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant