CN115759097A

CN115759097A - 一种车型名称识别方法

Info

Publication number: CN115759097A
Application number: CN202211395158.4A
Authority: CN
Inventors: 周策; 蓬蕾; 黄忠礼; 程博
Original assignee: Guangdong Piston Intelligence Technology Co ltd
Current assignee: Guangdong Piston Intelligence Technology Co ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-07
Anticipated expiration: 2042-11-08
Also published as: CN115759097B

Abstract

本发明公开了一种车型名称识别方法，方法包括获取文本信息的原始语料，对原始语料进行文本纠错修复，获得第一数据；通过别名识别模型对第一数据进行别名信息提取，获得第二数据；其中，别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型，第二数据包括第一别名和第一上下文信息；通过车型标准名称匹配模型对第二数据进行车型名称反推，获得第一车型名称，实现文本信息的车型名称识别。本实施例实现了从文本信息中自动纠错并识别车型名称，避免出现别名与标准名称之间多对多时无法识别的情况，提高识别准确率。

Description

一种车型名称识别方法

技术领域

本发明涉及车型名称识别领域，尤其涉及一种车型名称识别方法。

背景技术

随着互联网融入人们生活，论坛、热聊和各种社交媒体中消费者的评论已经成为汽车厂商了解消费者用车需求和获得使用反馈的重要渠道。由于消费者评论都是文字形式，通过人工阅读来总结消费者的用车需求和反馈，需要耗费大量的人力和时间，因此利用自然语言处理的各种算法提取文字中的主要信息是提高效率节约成本的一个重要方法。在从评论文本中提取信息时“车型名称”是最基础，同时也是最重要的部分，它确定了各种分析结果的对象，处理不好，分析的结果会发生偏差甚至错误。例如：如果将提及“A4”的文本全部认为评论的是奥迪A4(进口旅行车)就会发生严重错误，因为人们在评论国产轿车奥迪A4L时也常常称其为“A4”。而将消费者对A4L的评论混入对进口A4的评论中将使得分析结果出现严重偏差。

由于多数消费者评论都相当口语化，对于车型名称也常常使用简短的别称或者喜爱的昵称，这一现象使得车型名称和车型的别名之间会出现多对多的关系。例如：两个车型对应同一个昵称如马自达3和宝马3系的别名都包含“小三”、国产轿车奥迪A4L常常被称为“A4”与奥迪A4(进口旅行车)混淆；一个车型名称对多个别名，如奔驰C级别名包括“老C”、“C系”、“小奔奔”、“200”；车型别名与具有其它意义的词语混淆如大众宝来的别名包括“小宝”、“自舒宝”、“传奇”(宝来在19年推出过传奇款)。

在各种评论或者文章的文本信息中，这种车型名称和车型别名之间存在多对多的关系、别名和具有其它意义的常用词混淆以及拼写错误等现象，为识别车型名称带来不少困难，在车型名称识别中常常出现的情况有：将别名对应到错误车型；不是车型的别名识别成了别名；别名因和普通词汇相似，而没有正确识别出等现象。一旦车型名称识别发生错误，整个文本解读出来的内容就会被归到错误的车型下面，使得分析出来的该车的消费者需求发生偏差。因此，准确的车型名称识别对于厂商低成本高质量地了解消费者需求具有重要的意义。

在现有技术中，对于在文本信息中识别车型名称，常采用的方法包括基于规则和基于模型及规则，其中，基于规则的车型名称识别采用语言学专家手工构造规则模板，选用各种特征如：标点、关键字、指示词、位置词等方法，以模式和字符串匹配程度来进行识别。基于模型及规则的车型识别用模型提取句子中最大可能的状态序列并将各状态序列与规则相匹配的部分识别为别名，模型仅是辅助找出可能符合规则的序列片段，实际效果仍然依赖于规则的设计，因此和基于规则的车型识别有同样的缺陷。这两种方法都存在的弊端在于：1)只识别别名，没有解决车型标准名称和别名之间多对多的问题，不能由别名反推出对应的车型的标准名称使得其实用性受到很大限制(比如只能识别“A4”是昵称，但是不能识别该评论信息是针对国产的奥迪A4L还是进口的奥迪A4L。这种不能确定评论对象的情况下评论是无法被进一步使用)；2)不能处理评论中很常见的拼写错误问题；3)忽略上下文语境降低了准确率；4)依赖规则模板设计过度依赖人工经验，自动化程度不高；5)对聊天这类口语化的文本匹配程度低且效果差；5)在别名用型号简称而非车型简称时根本识别不出来。

发明内容

本发明提供了一种车型名称识别方法，实现从文本信息中自动纠错并识别车型名称，避免出现别名与标准名称之间多对多时无法识别的情况，提高识别准确率。

为了解决上述技术问题，本发明实施例提供了一种车型名称识别方法，包括：

获取文本信息的原始语料，对原始语料进行文本纠错修复，获得第一数据；

通过别名识别模型对第一数据进行别名信息提取，获得第二数据；其中，别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型，第二数据包括第一别名和第一上下文信息；

通过车型标准名称匹配模型对第二数据进行车型名称反推，获得第一车型名称，实现文本信息的车型名称识别。

实施本发明实施例，获取文本信息的原始语料，对原始语料进行文本纠错修复，获得第一数据，通过文本纠错修复，实现自动识别并纠正拼写错误，进一步提高识别准确率。通过汽车BERT模型、全连接层神经网络模型和条件随机场模型形成的别名识别模型，对第一数据进行别名信息提取，获得第二数据；其中，第二数据包括别名和上下文信息，通过模型识别实现不依赖于专家规则自动寻找别名，不但能识别出基于车型名称而产生的别名还能识别出基于型号名称而产生的别名。通过车型标准名称匹配模型，对第二数据进行车型名称反推，获得车型标准名称，实现文本信息的车型名称识别。提取别名和上下文信息，利用上下文其它信息可解决别名与标准名称之间多对多的情况，实现用别名+上下文其它信息反推其对应的车型标准名称，实现从文本信息中自动识别车型名称，别名信息提取和车型名称反推的过程中结合了上下文信息，可有效提高识别车型名称的准确性。

作为优选方案，对原始语料进行文本纠错修复，获得第一数据，具体为：

根据车型名称库，获得全部的第二车型名称；

将当前第二车型名称，拆分成第一字符列表；

根据第一字符列表，生成各字符的第一发音列表；

根据谐音库，找出各字符的第一发音列表的每个发音所对应的全部谐音，获得各字符的全部谐音，并根据各字符的全部谐音，获得当前第二车型名称的衍生谐音；

根据各第二车型名称的衍生谐音和各第二车型名称，建立车名谐音词库。

施本发明实施例，根据车型名称所有衍生谐音，建立车名谐音词库，扩大词库识别范围，有效抓住汉语发音特点，得到最接近真实的评论原始文本，有利于后期提取别名和车型名称反推。

作为优选方案，将原始语料转化为字符级发音列表，并根据字符级发音列表和车名谐音词库，进行发音匹配，获得错误车名，将错误车名替换成正确车名，具体为：

将原始语料拆分成单字，并将单字转化成发音，获得字符级发音列表；

根据车名谐音词库中所有谐音词的长度，获得长度阈值范围；

根据长度阈值范围，确定当前长度；

根据当前长度和松散容忍度，获得当前窗口长度；

根据当前窗口长度、原始语料和字符级发音列表，进行窗口顺文本滑动，获得当前窗口框选的待识别文本；

在车名谐音词库中搜索各衍生谐音的长度，找出衍生谐音的长度与当前长度相同的衍生谐音，获得第二衍生谐音；

将待识别文本的字符级发音列表与第二衍生谐音做匹配，若匹配成功，则将待识别文本标记为错误车名；

将错误车名替换成正确车名。

实施本发明实施例，谐音匹配成功时即认为为拼写错误，对原始语料进行拼写错误检查与自动修复，实现自动识别并纠正拼写错误，避免因为拼写错误，导致车型名称的错误识别，提高准确性。

作为优选方案，通过别名识别模型对第一数据进行别名信息提取，获得第二数据，具体为：

根据汽车评论语料和基础BERT模型，建立汽车BERT模型；

根据汽车评论语料和汽车BERT模型，建立全连接层神经网络模型；

根据汽车评论语料、汽车BERT模型和全连接层神经网络模型，建立条件随机场模型；

将第一数据，按照句子进行分割，获得第三数据，将第三数据输入汽车BERT模型，获得第二向量，将第二向量输入全连接层神经网络模型，获得第一标记概率，将第一标记概率输入条件随机场模型，输出第一标注，根据第一标注，提取别名信息，获得第一别名；其中，第一别名包括第一车型名称、车型别名和品牌别名；

根据第一别名和第一数据，获得第二数据，其中，第二数据包括第一别名和上下文信息。

实施本发明实施例，利用上下文语境和信息进行是别名识别，不依赖于专家规则自动寻找别名，不但能识别出基于车型名称而产生的别名还能识别出基于型号名称而产生的别名，提高准确性的同时避免了由于规则不完善导致的缺陷。

作为优选方案，根据汽车评论语料和基础BERT模型，建立汽车BERT模型，具体为：

根据各类汽车媒体，获取第一语料；

将第一语料进行数据清洗，获得汽车评论语料；

将汽车评论语料进行句子分解，获得第二语料；

将第二语料进行向量转化，获得第三语料；

将第三语料进行遮盖处理，获得第四语料；

根据开源社区的BERT模型，获得基础BERT模型，并根据基础BERT模型底部层的BERT权重和预设顶部层权重，将第四语料输入基础BERT模型，进行训练，建立汽车BERT模型。

作为优选方案，根据汽车评论语料和汽车BERT模型，建立全连接层神经网络模型，具体为：

根据预设第一规则，抽取汽车评论语料，得到第五语料，根据预设第二规则，对第五语料进行标注，获得第一标注语料，将第一标注语料输入汽车BERT模型，获得第一向量，将第一向量输入神经网络全连接层，训练神经网络全连接层的各层权重，建立全连接层神经网络模型。

作为优选方案，根据汽车评论语料、汽车BERT模型和全连接层神经网络模型，建立条件随机场模型，具体为：

将第一标注语料输入汽车BERT模型和全连接层神经网络模型，获得每个字的标记概率，将标记概率输入条件随机场，并根据最大似然函数的优化方法，训练条件随机场，建立条件随机场模型。

作为优选方案，通过车型标准名称匹配模型对第二数据进行车型名称反推，获得第一车型名称，实现文本信息的车型名称识别，具体为：

根据汽车评论语料、汽车BERT模型、全连接层神经网络模型和条件随机场模型，建立车型标准名称匹配模型；

根据车型标准名称匹配模型的要求，将第二数据，进行特征工程转化，获得第四数据；

将第四数据，输入车型标准名称匹配模型，获得别名的第一车型名称，实现文本信息的车型名称识别。

实施本发明实施例，利用上下文信息可解决别名与标准名称之间多对多的情况，通过车型标准名称匹配模型，可将别名和上下文信息反推其对应的车型标准名称，实现了别名与车型标准名称之间的匹配。

作为优选方案，根据汽车评论语料、汽车BERT模型、全连接层神经网络模型和条件随机场模型，建立车型标准名称匹配模型，具体为：

将汽车评论语料，按照句子进行分割，获得第六语料，将第六语料输入汽车BERT模型、全连接层神经网络模型和条件随机场模型，获得第七语料；

根据第七语料和汽车评论语料，获得第二别名和第二上下文信息；

将第二别名，进行标注分类至对应的车型标准名称，获得第二标注语料；

将第二上下文信息、第二标注语料和车型标准名称输入匹配模型，并根据分类算法，训练匹配模型，建立车型标准名称匹配模型；其中，分类算法包括神经网络、逻辑回归、支持向量机和条件概率框架。

附图说明

图1：为本发明提供的车型名称识别方法的流程示意图；

图2：为本发明提供的车型名称识别方法的自动纠错的流程图；

图3：为本发明提供的车型名称识别方法的别名识别的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，为本发明实施例提供的一种车型名称识别方法的流程示意图。本实施例的车型名称识别方法，本实施例通过对别名和上下文信息的综合识别，从文本信息中自动纠错并识别车型名称，避免出现别名与标准名称之间多对多时无法识别的情况，提高识别准确率。该车型名称识别方法包括步骤101至步骤104，各步骤具体如下:

步骤101：获取文本信息的原始语料，对原始语料进行文本纠错修复，获得第一数据。

在本实施例中，获取文本信息的原始语料，可以但不限于用户通过数据读入的方式，上传包含消费者评论的原始语料，对文本信息的原始语料进行文本纠错修复，对于拼写错误可以通过内嵌程序进行自动检查与修复。进行文本纠错修复的方法是通过原始语料，建立车名谐音词库，将语料文本转化为发音列表，将每个车名逐一比对，当谐音匹配成功时即认为为拼写错误同时将原文本中的错误文本替换成正确车名。

可选的，步骤101具体包括步骤1011至步骤1012，各步骤具体如下:

步骤1011：根据车型名称库，进行谐音扩充，建立车名谐音词库。

需要说明的是，车型名称库中存储了在售或曾经销售的所有车型的标准名称以及旗下的型号名称，车型标准名称是车企对具有同类型、品牌、车身形式、种类及系列的车辆所给予的名称，例如：大众朗逸、哈弗H6、本田雅阁、宝马3系等，型号名称是车企为同一车型及年款下不同配置和动力总成的组合所起的名称，每个年款下有多个型号，例如：朗逸2023款有得逸版、满逸版、星空满逸版等多个型号。别名是消费者评论的文本信息中提及车型时使用的名称，可能是比车型标准名称简短或者带感情的称呼，例如：奥迪A4L的别名为A4或者小四等。

可选的，步骤1011具体为：根据车型名称库，获得全部的第二车型名称；将当前第二车型名称，拆分成第一字符列表；根据第一字符列表，生成各字符的第一发音列表；根据谐音库，找出各字符的第一发音列表的每个发音所对应的全部谐音，获得各字符的全部谐音，并根据各字符的全部谐音，获得当前第二车型名称的衍生谐音；根据各第二车型名称的衍生谐音和各第二车型名称，建立车名谐音词库。

在本实施例中，根据车型名称库，获得车型名称库中所有第二车型名称，第二车型名称中包括车型标准名称和型号名称，并对第二车型名称的每个名称进行衍生谐音搜索的循环，循环时，每个名称即作为当前第二车型名称，衍生谐音搜索的具体流程为：首先，将每个名称拆分成第一字符列表(如“荣放RAV4”拆分为“荣”“放”“R”“A”“V”“4”六个字的列表)；其次，根据第一字符列表，生成字符的第一发音列表(如“荣放RAV4”的发音列表为rongfang r a vsi)；最后对于发音列表中的每个发音，从谐音库中找出其全部的谐音发音，即各字符的全部谐音(如上si的谐音发音有xi,shi等)，通过各字符的全部谐音，确定当前第二车型名称的衍生谐音，并根据全部第二车型名称的衍生谐音，将车型名称库进行扩充，从而建立车名谐音词库。

步骤1012：将原始语料转化为字符级发音列表，并根据字符级发音列表和车名谐音词库，进行发音匹配，获得错误车名，将错误车名替换成正确车名。

可选的，步骤1012具体为：将原始语料拆分成单字，并将单字转化成发音，获得字符级发音列表；根据车名谐音词库中所有谐音词的长度，获得长度阈值范围；根据长度阈值范围，确定当前长度；根据当前长度和松散容忍度，获得当前窗口长度；根据当前窗口长度、原始语料和字符级发音列表，进行窗口顺文本滑动，获得当前窗口框选的待识别文本；在车名谐音词库中搜索各衍生谐音的长度，找出衍生谐音的长度与当前长度相同的衍生谐音，获得第二衍生谐音；将待识别文本的字符级发音列表与第二衍生谐音做匹配，若匹配成功，则将待识别文本标记为错误车名；将错误车名替换成正确车名。

在本实施例中，对原始语料进行扫描文本，识别并修正拼写错误，首先根据原始语料的文本，先将其转化为字符级发音列表，即拆分为单字(汉字、字母、数字)，并将每个单字转化成发音。根据车名谐音词库中所有谐音词的所有出现过的长度，获得长度阈值范围，例如，当车名谐音词库中共有5000个谐音词，最短的长度是2个单字组成，最长的长度是10个单字组成，长度阈值范围为2～10。，根据长度阈值范围进行自动纠错的循环，例如，当长度阈值范围是2～10，就从“窗口长度＝2+松散容忍度”开始自动纠错循环，直到“窗口长度＝10+松散容忍度”循环结束。自动纠错的流程，如图2所示，首先，根据长度阈值范围，确定当前循环下的长度，即当前长度，取当前窗口长度等于当前长度加上松散容忍度，将窗口顺文本滑动，取每次窗口框选的发音列表作为待识别文本，其次，将每个待识别文本与当前循环下的长度相同的所有车型名称衍生出来的谐音(第二衍生谐音)做匹配，即做维度发音匹配，若匹配成功，则当前待识别文本被标记为错误文本，若匹配不成功，则不做标记。最后，将错误文本替换成其对应的正确的车型名称。

步骤102：通过别名识别模型对第一数据进行别名信息提取，获得第二数据；其中，别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型，第二数据包括第一别名和第一上下文信息。

在本实施例中，用预置的BERT模型(汽车BERT模型)和预置的全连接层神经网络模型将纠错后的语料文本每个单字转化为向量并自动做好文本标注，然后输入预置的条件随机场(CRF)模型，再由其自动识别出第一别名(如：车型名称、车型别名、品牌)。

可选的，步骤102具体包括步骤1021至步骤1025，各步骤具体如下:

步骤1021：根据汽车评论语料和基础BERT模型，建立汽车BERT模型。

可选的，步骤1021具体为：根据各类汽车媒体，获取第一语料；将第一语料进行数据清洗，获得汽车评论语料；将汽车评论语料进行句子分解，获得第二语料；将第二语料进行向量转化，获得第三语料；将第三语料进行遮盖处理，获得第四语料；根据开源社区的BERT模型，获得基础BERT模型，并根据基础BERT模型底部层的BERT权重和预设顶部层权重，将第四语料输入基础BERT模型，进行训练，建立汽车BERT模型。

在本实施例中，在预训练好的基础BERT模型上用汽车评论语料再次训练，建立符合汽车评论场景的汽车BERT模型，预训练好的基础BERT模型是根据开源社区(如知名机构或HuggingFace开源社区提供的bert-base-chinesem等)基于大量语料预训练好的开源BERT模型。建立汽车BERT模型，基于汽车评论语料建立训练集与测试集，根据开源公开且可用的各类汽车媒体，获取第一语料，可使用网络爬虫技术从各汽车垂直媒体，社交媒体中汽车相关账号和各类汽车论坛中爬消费者口碑、评论、讨论的第一语料；对原始第一语料进行数据清洗，数据清洗包括但不限于筛除无意义或与汽车主题无关的语料，获得汽车评论语料；再将汽车评论语料进行句子分解，获得第二语料；对第二语料进行字/句子/句子位置的embedding，即向量转化，获得第三语料；对第三语料进行遮盖处理，包括但不限于进行mask处理，例如随机遮挡15％的字，再例如随机拼接两句话(保证50％的情况下，句子B是句子A的下一句，而50％的情况下，B不是A的下一句)，获得第四语料；训练模型时，保留基础BERT模型底部的BERT权重，对于顶部层的权重重新进行随机初始化，将第四语料输入模型，进行训练，基于汽车评论语料建立汽车BERT模型。

步骤1022：根据汽车评论语料和汽车BERT模型，建立全连接层神经网络模型。

可选的，步骤1022具体为：根据预设第一规则，抽取汽车评论语料，得到第五语料，根据预设第二规则，对第五语料进行标注，获得第一标注语料，将第一标注语料输入汽车BERT模型，获得第一向量，将第一向量及标注结果输入神经网络全连接层，训练神经网络全连接层的各层权重，建立全连接层神经网络模型。

在本实施例中，根据步骤1021中的汽车评论语料建立训练集和测试集，根据预设第一规则抽取(如抽取90％的全部汽车评论语料)，抽取汽车评论语料，后，获得第五语料，对第五语料利用预设的第二规则进行标注，可进行人工标注，预设第二规则包括但不限于使用BIO标注规则，其中，定义片段类型：品牌(B)和车名(N)，最为一种举例，使用BIO标注规则方法对汽车评论语料文本进行标注，获得第一标注语料，例如，我(O)是(O)大(B-B)众(I-B)粉(O)一(O)眼(O)看(O)中(O)了(O)宝(B-N)来(I-N)。将已标注好的第一标注语料文本输入预置的汽车BERT模型，得到文本中每个字的词向量作为全连接层的输入，即第一向量，将第一向量输入神经网络全连接层，训练全连接层的各层权重，建立预置的全连接层神经网络模型。

步骤1023：根据汽车评论语料、汽车BERT模型和全连接层神经网络模型，建立条件随机场模型。

可选的，步骤1023具体为：将第一标注语料输入汽车BERT模型和全连接层神经网络模型，获得每个字的标记概率，将标记概率输入条件随机场，并根据最大似然函数的优化方法，训练条件随机场，建立条件随机场模型。

在本实施例中，将标注好的文本(第一标注语料)输入预置的汽车BERT模型和全连接层神经网络模型，得到每个字为某种标记的概率，并将此序列的标记概率作为条件随机场模型的输入，根据最大似然函数的优化方法，训练条件随机场，建立条件随机场模型。

其中，根据优化方法，寻找参数λ_j的最大化似然函数P(Y|X,λ)，公式如下：

其中，i为输入句子中的第i个位置，X为输入的句子形成的向量，y_i为第i个位置的标签，f_j为取值为0或1的特征函数，Z(x)为使得整个数字归一化。

步骤1024：将第一数据，按照句子进行分割，获得第三数据，将第三数据输入汽车BERT模型，获得第二向量，将第二向量输入全连接层神经网络模型，获得第一标记概率，将第一标记概率输入条件随机场模型，输出第一标注，根据第一标注，提取别名信息，获得第一别名；其中，第一别名包括第一车型名称、车型别名和品牌别名。

在本实施例中，别名识别的流程，如图3所示，使用预置的BERT+全连接层+条件随机场模型为输入的任意文本做标注，可提取车型名称、车型别名、品牌别名(品牌名称)，首先将纠错后的文本(第一数据)按照句子进行分割，获得第三数据；将第三数据的各句子输入预置的汽车BERT模型，输出每一个字的向量，获得第二向量；将第二向量(字向量)输入预置的全连接层神经网络模型得到每个字为某种标记的概率，获得第一标记概率，再将第一标记概率作为预置的条件随机场模型的输入，最终输出句子中每一个字的标注，获得第一标注，按照第一标注提取第一别名，第一别名包括第一车型名称、车型别名和品牌别名。

步骤1025：根据第一别名和第一数据，获得第二数据，其中，第二数据包括第一别名和上下文信息。

在本实施例中，通过别名识别模型的三个模型，完成对第一数据(文本纠错修复后的语料)进行别名信息提取，根据文本纠错修复后的语料和文本纠错修复后的语料所提取出来的别名(车型名称、车型别名和品牌)，可以获得别名和与别名相关的上下文信息，即获得第二数据。

步骤103：通过车型标准名称匹配模型对第二数据进行车型名称反推，获得第一车型名称，实现文本信息的车型名称识别。

在本实施例中，将提取的别名及相关上下文信息输入预置的车型标准名称匹配模型,并匹配至第一车型名称(车型的标准名称)。

可选的，步骤103具体包括步骤1031至步骤1033，各步骤具体如下:

步骤1031：根据汽车评论语料、汽车BERT模型、全连接层神经网络模型和条件随机场模型，建立车型标准名称匹配模型。

可选的，步骤1031具体为：将汽车评论语料，按照句子进行分割，获得第六语料，将第六语料输入汽车BERT模型、汽车BERT模型和全连接层神经网络模型，获得第七语料；根据第七语料和汽车评论语料，获得第二别名和第二上下文信息；将第二别名，进行标注分类至对应的车型标准名称，获得第二标注语料；将第二上下文信息、第二标注语料和车型标准名称输入匹配模型，并根据分类算法，训练匹配模型，建立车型标准名称匹配模型；其中，分类算法包括神经网络、逻辑回归、支持向量机和条件概率框架。

在本实施例中，为满足随机抽取经预置的BERT+全连接层+条件随机场模型提取的车型别名及相关信息，将汽车评论语料，按照句子进行分割，获得第六语料，将第六语料输入汽车BERT模型、全连接层神经网络模型和条件随机场模型，获得第七语料，根据第七语料和汽车评论语料，获得第二别名和第二上下文信息，并对第二别名人工匹配标注至车型标准名称，获得第二标注语料，其中，第二上下文信息包括同一段话中提及的品牌、其它车型名称/别名等。根据第二上下文信息、第二标注语料和车型标准名称，进行训练模型匹配，获得车型标准名称匹配模型，其中，训练模型匹配算法包括但不限于神经网络、逻辑回归、支持向量机和条件概率框架等，以条件概率框架为例进行模型匹配，首先对车型名称进行分类：利用无监督聚类将常常一起出现的车型名称分成一类，所有车型名称按无监督聚类结果分为N类，成为车型类，利用训练集计算在出现车型类k(k＝1,...,N)及品牌m的情况下各别名对应到所有可能的车型标准名称上的条件概率P(别名i＝车型标准名称j|同一段中车型类k,品牌m)。训练模型的数据：如果别名i＝车型标准名称j，则标签是1，否则标签为0；因变量包括车型标准名称j所属类型、所属品牌、别名，同一段文本中出现的其它车型类及品牌等上下文信息。

步骤1032：根据车型标准名称匹配模型的要求，将第二数据，进行特征工程转化，获得第四数据；

步骤1033：将第四数据，输入车型标准名称匹配模型，获得别名的第一车型名称，实现文本信息的车型名称识别。

在本实施例中，使用预置的车型标准名称匹配模型将车型别名匹配至车型标准名(第一车型名称)，将别名识别提取后的第二数据(车型别名及上下文相关信息)按照预置车型标准名称匹配模型的要求，做特征工程转化，获得第四数据，将第四数据带入预置匹配模型得到每个别名的车型标准名称，实现文本信息的车型名称识别，对于未匹配上的别名，可进行人工匹配后加入预置车型标准名称匹配模型的训练集，当数据量达到某阈值的时候自动触发预置车型标准名称匹配模型的更新，使得车型标准名称匹配模型可识别匹配更多的别名。

实施本发明实施例，利用上下文语境和信息，提高准确性的同时避免了由于规则不完善导致的缺陷，自动识别别名，不依赖于专家规则自动寻找别名，不但能识别出基于车型名称而产生的别名还能识别出基于型号名称而产生的别名，利用相同段落中的其它信息建立匹配模型，解决别名与标准名称之间多对多的情况，实现用别名+上下文其它信息反推其对应的车型标准名称，实现别名与车型标准名称之间的匹配，实现自动识别并纠正拼写错误，进一步提高识别准确率。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种车型名称识别方法，其特征在于，包括：

获取文本信息的原始语料，对所述原始语料进行文本纠错修复，获得第一数据；

通过别名识别模型对所述第一数据进行别名信息提取，获得第二数据；其中，所述别名识别模型包括汽车BERT模型、全连接层神经网络模型和条件随机场模型，所述第二数据包括第一别名和第一上下文信息；

通过车型标准名称匹配模型对所述第二数据进行车型名称反推，获得第一车型名称，实现所述文本信息的车型名称识别。

2.如权利要求1所述的车型名称识别方法，其特征在于，所述对所述原始语料进行文本纠错修复，获得第一数据，具体为：

根据车型名称库，进行谐音扩充，建立车名谐音词库；

将所述原始语料转化为字符级发音列表，并根据所述字符级发音列表和所述车名谐音词库，进行发音匹配，获得错误车名，将所述错误车名替换成正确车名。

3.如权利要求2所述的车型名称识别方法，其特征在于，所述根据车型名称库，进行谐音扩充，建立车名谐音词库，具体为：

根据所述车型名称库，获得全部的第二车型名称；

将当前所述第二车型名称，拆分成第一字符列表；

根据所述第一字符列表，生成各字符的第一发音列表；

根据谐音库，找出所述各字符的所述第一发音列表的每个发音所对应的全部谐音，获得所述各字符的所述全部谐音，并根据所述各字符的所述全部谐音，获得当前所述第二车型名称的衍生谐音；

根据各所述第二车型名称的所述衍生谐音和各所述第二车型名称，建立所述车名谐音词库。

4.如权利要求3所述的车型名称识别方法，其特征在于，所述将所述原始语料转化为字符级发音列表，并根据所述字符级发音列表和所述车名谐音词库，进行发音匹配，获得错误车名，将所述错误车名替换成正确车名，具体为：

将所述原始语料拆分成单字，并将所述单字转化成发音，获得字符级发音列表；

根据所述车名谐音词库中所有谐音词的长度，获得长度阈值范围；

根据所述长度阈值范围，确定当前长度；

根据所述当前长度和松散容忍度，获得当前窗口长度；

根据所述当前窗口长度、所述原始语料和所述字符级发音列表，进行窗口顺文本滑动，获得当前窗口框选的待识别文本；

在所述车名谐音词库中搜索各所述衍生谐音的长度，找出所述衍生谐音的长度与所述当前长度相同的所述衍生谐音，获得第二衍生谐音；将所述待识别文本的所述字符级发音列表与所述第二衍生谐音做匹配，若匹配成功，则将所述待识别文本标记为所述错误车名；

将所述错误车名替换成正确车名。

5.如权利要求1所述的车型名称识别方法，其特征在于，所述通过别名识别模型对所述第一数据进行别名信息提取，获得第二数据，具体为：

根据汽车评论语料和基础BERT模型，建立所述汽车BERT模型；

根据所述汽车评论语料和所述汽车BERT模型，建立所述全连接层神经网络模型；

根据所述汽车评论语料、所述汽车BERT模型和所述全连接层神经网络模型，建立所述条件随机场模型；

将所述第一数据，按照句子进行分割，获得第三数据，将所述第三数据输入所述汽车BERT模型，获得第二向量，将所述第二向量输入所述全连接层神经网络模型，获得第一标记概率，将所述第一标记概率输入所述条件随机场模型，输出第一标注，根据所述第一标注，提取别名信息，获得所述第一别名；其中，所述第一别名包括所述第一车型名称、车型别名和品牌别名；

根据所述第一别名和所述第一数据，获得第二数据，其中，所述第二数据包括第一别名和上下文信息。

6.如权利要求5所述的车型名称识别方法，其特征在于，所述根据汽车评论语料和基础BERT模型，建立所述汽车BERT模型，具体为：

根据各类汽车媒体，获取第一语料；

将所述第一语料进行数据清洗，获得所述汽车评论语料；

将所述汽车评论语料进行句子分解，获得第二语料；

将所述第二语料进行向量转化，获得第三语料；

将第三语料进行遮盖处理，获得第四语料；

根据开源社区的BERT模型，获得所述基础BERT模型，并根据所述基础BERT模型底部层的BERT权重和预设顶部层权重，将所述第四语料输入基础BERT模型，进行训练，建立所述汽车BERT模型。

7.如权利要求6所述的车型名称识别方法，其特征在于，所述根据所述汽车评论语料和所述汽车BERT模型，建立所述全连接层神经网络模型，具体为：

根据预设第一规则，抽取所述汽车评论语料，得到第五语料，根据预设第二规则，对所述第五语料进行标注，获得第一标注语料，将所述第一标注语料输入所述汽车BERT模型，获得第一向量，将所述第一向量输入神经网络全连接层，训练所述神经网络全连接层的各层权重，建立所述全连接层神经网络模型。

8.如权利要求7所述的车型名称识别方法，其特征在于，所述根据所述汽车评论语料、所述汽车BERT模型和所述全连接层神经网络模型，建立条件随机场模型，具体为：

将所述第一标注语料输入所述汽车BERT模型和所述全连接层神经网络模型，获得每个字的标记概率，将所述标记概率输入条件随机场，并根据最大似然函数的优化方法，训练所述条件随机场，建立所述条件随机场模型。

9.如权利要求5所述的车型名称识别方法，其特征在于，所述通过车型标准名称匹配模型对所述第二数据进行车型名称反推，获得第一车型名称，实现所述文本信息的车型名称识别，具体为：

根据所述汽车评论语料、所述汽车BERT模型、所述全连接层神经网络模型和条件随机场模型，建立所述车型标准名称匹配模型；

根据所述车型标准名称匹配模型的要求，将所述第二数据，进行特征工程转化，获得第四数据；

将所述第四数据，输入所述车型标准名称匹配模型，获得所述别名的所述第一车型名称，实现所述文本信息的车型名称识别。

10.如权利要求9所述的车型名称识别方法，其特征在于，所述根据所述汽车评论语料、所述汽车BERT模型、所述全连接层神经网络模型和条件随机场模型，建立所述车型标准名称匹配模型，具体为：

将所述汽车评论语料，按照句子进行分割，获得第六语料，将所述第六语料输入所述汽车BERT模型、所述全连接层神经网络模型和所述条件随机场模型，获得第七语料；

根据所述第七语料和所述汽车评论语料，获得第二别名和第二上下文信息；

将所述第二别名，进行标注分类至对应的所述车型标准名称，获得第二标注语料；

将所述第二上下文信息、所述第二标注语料和所述车型标准名称输入匹配模型，并根据分类算法，训练所述匹配模型，建立所述车型标准名称匹配模型；其中，所述分类算法包括神经网络、逻辑回归、支持向量机和条件概率框架。