CN111124925B - 基于大数据的场景提取方法、装置、设备和存储介质 - Google Patents
基于大数据的场景提取方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111124925B CN111124925B CN201911357568.8A CN201911357568A CN111124925B CN 111124925 B CN111124925 B CN 111124925B CN 201911357568 A CN201911357568 A CN 201911357568A CN 111124925 B CN111124925 B CN 111124925B
- Authority
- CN
- China
- Prior art keywords
- word vector
- scene
- user
- word
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 205
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 230000002159 abnormal effect Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 30
- 238000002372 labelling Methods 0.000 claims description 9
- 230000010365 information processing Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 16
- 239000000284 extract Substances 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种基于大数据的场景提取方法、装置、设备和存储介质,该方法包括:在预先建立的语料库中提取用户的日志文本,日志文本包括用户在车辆内至少一个操作场景中的操作信息;对日志文本内的语句进行分词处理,将每一个词通过预先建立的词向量模型转化成词向量,其中词向量与用户的操作信息为一一对应的关系;根据词向量和预先训练得到的BiLSTM+CRF模型得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系;根据每个词向量对应的类别标签对日志文本中的操作信息进行划分,得到场景操作序列。本发明实施例可以快速准确的从Beta测试中提取用户的常见场景操作序列和异常操作序列。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于大数据的场景提取方法、装置、设备和存储介质。
背景技术
Beta测试是一种验收测试,即是软件产品完成了功能测试和系统测试之后,在产品正式发布之前由大量用户所进行的软件测试活动,根据测试结果来判断相关软件是否满足用户需求,并根据测试时的用户的常见操作场景和操作行为来调整相关产品以更好的满足用户需求,因此,在Beta测试之后需要根据用户在测试时产生的操作数据提取操作场景,以复现操作场景和异常操作问题。
目前,由于用户在操作场景中的操作行为序列往往是一组连续的有关联的操作,因此,技术人员常用的场景提取方法是根据用户在测试时的操作行为序列,人工定位相应场景中的起始操作、中间操作、结束操作以及异常操作,得到用户在相应场景中的操作序列。
然而,这种人工提取的方法需要耗费大量的人力成本和时间成本,且提取准确率低。
发明内容
本发明实施例提供一种基于大数据的场景提取方法、装置、设备和存储介质,以解决现有技术中从Beta测试数据中提取用户常见操作场景和异常操作时效率低、准确率低以及提取成本高的问题。
本发明实施例的第一方面提供一种基于大数据的场景提取方法,包括:
在预先建立的语料库中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息;
对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系;
根据所述词向量和预先训练得到的双向长短时记忆人工神经网络+条件随机场(BiLSTM+CRF)模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系;
根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,以根据所述场景操作序列确定用户的操作场景。
可选地,所述类别标签包括操作场景的起始操作标签、中间操作标签、结束操作标签和系统操作标签;
所述根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,包括:
选取任意一个起始操作标签对应的第一词向量;
获取所述中间操作标签对应的词向量中与所述第一词向量相关联的第二词向量,所述第二词向量的数量为0个或多个;
获取所述结束操作标签对应的词向量中与所述第一词向量或所述第二词向量相关联的第三词向量;
将所述第一词向量、所述第二词向量和所述第三词向量在所述日志文本中分别对应的操作信息确定为一个场景操作序列。
可选地,所述在预先建立的语料库中提取用户的日志文本之前,所述方法还包括:
将用户在驾驶时的所有操作信息转换成自然语言语句;
根据所述自然语言语句生成日志文本,并将所述日志文本存储到语料库中。
可选地,所述根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签之前,所述方法还包括:
确定训练样本,所述训练样本包括用户的历史操作信息对应的词向量以及每个词向量对应的类别标签;
将所述训练样本输入BiLSTM+CRF进行训练,得到BiLSTM+CRF模型。
可选地,所述语料库中存储有所有用户的用户标识以及每个用户的历史操作信息;
所述确定训练样本,包括:
根据用户标识,确定每个用户的历史行为序列,所述历史行为序列包括相互关联的至少一条历史操作信息;
根据所述历史行为序列,为所述用户在对应操作场景中的历史操作信息标注类别标签;
将所述用户的历史操作信息转换成自然语言语句;
对所述自然语言语句进行分词,并将每一个词通过词向量模型转换成词向量,以得到与所述类别标签相对应的词向量。
可选地,所述类别标签包括起始操作标签、中间操作标签、结束操作标签和系统操作标签;
所述根据所述历史行为序列,为所述用户在对应操作场景中的历史操作信息标注类别标签,包括:
根据所述历史行为序列,确定用户在对应操作场景中的起始操作、中间操作、结束操作和系统操作;
将起始操作对应的操作信息标注起始操作标签、中间操作对应的操作信息标注中间操作标签、结束操作和异常操作对应的操作信息标注结束操作标签以及系统操作对应的操作信息标注系统操作标签。
可选地,所述将所述训练样本输入BiLSTM+CRF进行训练,包括:
将用户的历史行为序列中每条操作信息对应的词向量和每个词向量对应标注的类别标签作为输入量输入BiLSTM+CRF,得到BiLSTM+CRF输出的每个词向量对应的类别标签。
本发明实施例的第二方面提供一种基于大数据的场景提取装置,包括:
信息提取模块,用于在预先建立的语料库中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息;
信息处理模块,用于对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系;
类别标注模块,用于根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系;
场景提取模块,用于根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,以根据所述场景操作序列确定用户的操作场景。
本发明实施例的第三方面提供一种基于大数据的场景提取设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本发明实施例第一方面所述的基于大数据的场景提取方法。
本发明实施例的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现本发明实施例的第一方面提供的基于大数据的场景提取方法。
本发明实施例提供一种基于大数据的场景提取方法、装置、设备和存储介质,通过预先训练得到BiLSTM+CRF模型,且BiLSTM+CRF模型用于表征词向量与类别标签的对应关系,因此,将用户的日志文本中的操作信息进行分词和词向量转换后,直接将转换得到的词向量输入BiLSTM+CRF模型,便可以对词向量标注类别标签,由于词向量和用户的操作信息为一一对应的关系,因此,便可以得到用户的操作信息对应的类别标签,根据每个操作信息对应的类别标签,便可以对日志文本中的所有操作信息进行分类,将同一个操作场景中的操作信息划分为一个场景操作序列,从而得到用户的操作场景。如此,实现了自动划分日志文本中的操作信息,得到场景操作序列,进而得到用户的操作场景,提高了场景提取的效率和准确率,降低了时间和人力成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一示例性实施例示出的基于大数据的场景提取方法的应用场景图;
图2是本发明一示例性实施例示出的基于大数据的场景提取方法的流程示意图;
图3是本发明另一示例性实施例示出的基于大数据的场景提取方法的流程示意图;
图4是本发明另一示例性实施例示出的基于大数据的场景提取方法的流程示意图;
图5是本发明一示例性实施例示出的BiLSTM+CRF系统的结构示意图;
图6是本发明一示例性实施例示出的训练BiLSTM+CRF的方法的流程示意图;
图7是本发明一示例性实施例示出的基于大数据的场景提取装置的结构示意图;
图8是本发明一示例性实施例示出的基于大数据的场景设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,软件产品正式发布之前都会由大量用户进行的软件测试活动,即Beta测试,根据测试结果来判断相关软件是否满足用户需求,并根据测试时的用户的常见操作场景和操作行为来调整相关产品以更好的满足用户需求,因此,在Beta测试之后需要根据用户在测试时产生的操作数据提取操作场景,以复现操作场景和异常操作问题。
以驾驶员在车辆内的操作场景中的操作为例,由于用户在操作场景中的操作行为序列往往是一组连续的有关联的操作,因此,技术人员常用的场景提取方法是根据用户在测试时的操作行为序列,人工定位相应场景中的起始操作、中间操作、结束操作以及异常操作,得到用户在相应场景中的操作序列。但是,这种人工提取的方法需要耗费大量的人力成本和时间成本,且提取准确率低。
针对此缺陷,本发明提供了一种基于大数据的场景提取方法、装置、设备和存储介质,该方法通过预先训练得到BiLSTM+CRF模型,且BiLSTM+CRF模型用于表征词向量与类别标签的对应关系,因此,将用户的日志文本中的操作信息进行分词和词向量转换后,直接将转换得到的词向量输入BiLSTM+CRF模型,便可以对词向量标注类别标签,由于词向量和用户的操作信息为一一对应的关系,因此,便可以得到用户的操作信息对应的类别标签,根据每个操作信息对应的类别标签,便可以对日志文本中的所有操作信息进行分类,将同一个操作场景中的操作信息划分为一个场景操作序列,从而得到用户的操作场景。如此,实现了自动划分日志文本中的操作信息,得到场景操作序列,进而得到用户的操作场景,提高了场景提取的效率和准确率,降低了时间和人力成本。
图1是本发明一示例性实施例示出的基于大数据的场景提取方法的应用场景图。
如图1所示,服务器102在预先建立的语料库101中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息;然后对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系;根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系;最后根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列。服务器可以将场景操作序列发送到显示终端103进行显示,以使相关技术人员根据所述场景操作序列确定用户的操作场景。
图2是本发明一示例性实施例示出的基于大数据的场景提取方法的流程示意图,本实施例的执行主体可以是图1所示实施例中的服务器。
如图2所示,本实施例提供的方法可以包括以下步骤:
S201,在预先建立的语料库中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息。
其中,操作场景是用户的行为操作场景,比如用户播放歌曲的操作场景,拨打电话的操作场景等。操作信息为用户在车辆内进行的行为操作对应的信息,比如用户在播放歌曲的操作场景中的行为操作是点击音量调节按钮,则对应的操作信息为调节音量。语料库是根据所有用户在车辆内的所有操作信息建立的。
具体的,将每个用户在车辆内的行为操作转换成自然语言语句,从而得到每个用户各自对应的日志文本,将用户标识和用户对应的日志文本存储到数据库中,得到语料库。相关人员根据用户标识便可以在语料库中获取该用户的日志文本。
S202,对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系。
由于日志文本中记录的是用户行为操作对应的自然语言语句,因此,日志文本内的自然语言语句进行分词处理,一条操作信息对应一个词,将每个词通过词向量模型转换成词向量,从而得到每条操作信息对应的词向量,且操作信息和词向量为一一对应的关系。
S203,根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系。
具体的,将日志文本中的语句分词转换成词向量后,得到用户所有操作信息各自对应的词向量,将这些词向量作为输入量输入BiLSTM+CRF模型,BiLSTM+CRF模型自动为每个词向量标注类别标签,从而得到每个词向量对应的操作信息的类别标签。
其中,类别标签包括操作场景的起始操作标签、中间操作标签、结束操作标签和系统操作标签;起始操作标签用于标识用户在一个操作场景中的其实操作,结束操作标签用于标识用户在该操作场景中的结束操作,中间操作标签用于标识用户在该操作场景中起始操作和结束操作之间的所有中间操作,系统操作标签用于标识不属于用户主动操作的操作。
比如,在播放音频这一操作场景中,打开媒体设备为用户在该操作场景中的起始操作,从本地存储中选择音频、调节音量等均为用户在该操作场景中的中间操作,点击播放为用户在该操作场景中的结束操作;如果用户调节的音量过大,出于预先设定的听力保护模式,系统会自动将音量调小,将音量调小这一操作即为系统操作。在具体实施时,BiLSTM+CRF模型会自动为“打开媒体设备”对应的词向量标注起始操作标签,为“从本地存储中选择音频”、“调节音量”对应的词向量操作标注中间操作标签,为“点击播放”对应的词向量标注结束操作标签,为“系统调小音量”对应的词向量标注系统操作标签。
S204,根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,以根据所述场景操作序列确定用户的操作场景。
进一步的,参见图3,根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,可以包括以下步骤:
S2041,选取任意一个起始操作标签对应的第一词向量。
由于用户的日志文本中包含用户在所有操作场景中的操作信息,因此,对应于多个操作场景会有多个起始操作,也会对应两个起始操作标签。比如,日志文本中包含用户在播放音频操作场景和拨打电话操作场景,那么,“打开媒体设备”是用户在播放音频操作场景中的起始操作,“手机和车辆通讯系统建立蓝牙连接”是用户在拨打电话操作场景中的起始操作。因此,可以先选择其中任意一个起始操作的起始操作标签对应的第一词向量。
S2042,获取所述中间操作标签对应的词向量中与所述第一词向量相关联的第二词向量,所述第二词向量的数量为0个或多个。
具体的,用户在一个操作场景中的的行为操作序列是一组连续的有关联的操作,比如,日志文本中包含用户在播放音频操作场景和拨打电话操作场景,那么,“打开媒体设备”是用户在播放音频操作场景中的起始操作,“手机和车辆通讯系统建立蓝牙连接”是用户在拨打电话操作场景中的起始操作。在播放音频操作场景中,起始操作“打开媒体设备”之后的中间操作为“选取播放路径”、“选取待播放音频”和“调节音量”,结束操作为“确认播放”,整个操作序列中的所有操作都是相关联的。相应的,操作序列中的每个操作对应的词向量之间也是相互关联的,因此,在确定了起始操作之后,在中间操作标签对应的词向量中确定与起始操作对应的第一词向量相关联的词向量,该相关联的词向量作为第二词向量,所有第二词向量对应的操作均为该场景中的中间操作。
一些实施例中,用户在车辆内的操作场景中的操作序列可能只包含两个操作,即起始操作和结束操作,比如,“打开空调”和“调节温度”。这一操作序列中不包含中间操作,即,中间操作标签对应的词向量中没有与第一词向量相关联的第二词向量。因此,当确定了起始操作对应的第一词向量之后,与第一词向量相关联的词向量对应的操作为结束操作。
S2043,获取所述结束操作标签对应的词向量中与所述第一词向量或所述第二词向量相关联的第三词向量。
结合步骤S2042中的描述可知,第三词向量对应的操作为该场景中的结束操作。
具体的,当第二词向量数量为0时,获取结束操作标签对应的词向量中与第一词向量相关联的第三词向量。
S2044,将所述第一词向量、所述第二词向量和所述第三词向量在所述日志文本中分别对应的操作信息确定为一个场景操作序列。
第一词向量、至少一个第二词向量和第三词向量各自对应的操作信息属于同一个场景中的起始操作信息、中间操作信息和结束操作信息,这些相关联的操作信息组成该场景中的一个完成的操作序列。
下面将举例对图3所示实施例中根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列的过程进行描述。
为了便于描述,将起始操作标签记为B,中间操作标签记为M,结束操作标签记为E,系统操作标签记为O。
比如,日志文本中包含用户在播放音频操作场景和拨打电话操作场景中的操作信息,其中播放音频操作场景的操作序列包括如下操作信息:“打开媒体设备”、“选取播放路径”、“选取待播放音频”、“调节音量”和“确认播放”,各自对应的词向量分别记为C0、C1、C2、C3和C4,将这些词向量输入BiLSTM+CRF模型后,为每个词向量标注的类别标签分别为B、M、M、M和E。根据每个词向量对应的类别标签,就可以获取到日志文本中用户在播放音频操作场景中的操作序列。
需要说明的是,本实施例中训练得到的BiLSTM+CRF模型可以自动识别Beta测试时用户的crash操作(即异常操作),比如错误操作、漏操作等。并且,BiLSTM+CRF模型会自动将crash操作对应的词向量标注为E,将其置于场景操作序列的尾部。
一些实施例中,crash操作可能有多个,比如,系统crash时,会连续上报多个模块的crash,但是皆由某个根因模块导致系统的该次crash。训练得到的BiLSTM+CRF模型会自动识别用户多个crash操作中最主要的一个crash操作,即将最重要的crash操作对应的词向量标注为E。比如,日志文本中一个操作序列的操作信息对应的词向量分别被模型标注为B、M、M、E,当需要复现crash操作的场景时,直接将标签E对应的crash操作所在的场景操作序列(即类别标签B、M、M、E各自对应的操作信息组成的场景操作序列,从E开始向前提取直到获取标有B标签的操作即为一个crash场景操作序列)提取出来即可。
本实施例可以根据日志文本中每个操作信息对应的词向量的类别标签快速准确的从日志文本中提取用户常见的操作场景,同时,还可以获取到用户发生crash操作的场景,即从模型标注的类别标签B开始,依次确定类别标签B后边的中间操作标签M,以及中间操作标签M后边的结束操作标签E,其中,结束操作标签E对应的操作为该场景中最重要的crash操作,将类别标签B、M…M、E各自对应的操作信息确定该场景中的场景操作序列,根据该场景操作序列确定用户的crash操作场景。提高了常见场景提取、复现crash操作场景的效率和准确率,降低了时间和人力成本。
图4是本发明另一示例性实施例示出的基于大数据的场景提取方法的流程示意图,本实施例基于图2和图3所示实施例对基于大数据的场景提取方法做进一步完整描述。
如图4所示,本实施例提供的方法可以包括以下步骤:
S401,将用户在驾驶时的所有操作信息转换成自然语言语句。
S402,根据所述自然语言语句生成日志文本,并将所述日志文本存储到语料库中。
S403,在语料库中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息。
S404,对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系。
S405,根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系,所述类别标签包括操作场景的起始操作标签、中间操作标签、结束操作标签和系统操作标签。
S406,选取任意一个起始操作标签对应的第一词向量。
S407,获取所述中间操作标签对应的词向量中与所述第一词向量相关联的第二词向量,所述第二词向量的数量为0个或多个。
S408,获取所述结束操作标签对应的词向量中与所述第一词向量或所述第二词向量相关联的第三词向量。
S409,将所述第一词向量、所述第二词向量和所述第三词向量在所述日志文本中分别对应的操作信息确定为一个场景操作序列。
S410,根据所述场景操作序列确定用户的操作场景。
本实施例中各个步骤的详细描述可参考图2和图3所示实施例中相关步骤的描述此处不再赘述。
进一步的,在根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签之前,还需要根据训练样本训练BiLSTM+CRF,以得到BiLSTM+CRF模型。
如图5所示,本实施例提供的BiLSTM+CRF系统包括:
输入层501,用于输入用户的日志文本。
词向量模型502,用于将日志文本中的语句转换成词向量。
LSTM+CRF 503,用于对所述词向量进行预标注类别标签。
输出层504,用于输出词向量对应的预标注的类别标签。
图6是本发明一示例性实施例示出的训练BiLSTM+CRF的方法的流程示意图,本实施例基于图5所示实施例对BiLSTM+CRF的训练过程进行详细描述。
如图6所示,本实施例提供的方法可以包括以下步骤:
S601,根据用户标识,确定每个用户的历史行为序列,所述历史行为序列包括至少一条历史操作信息。
具体的,语料库中存储有所有用户的用户标识以及对应的历史行为序列,根据用户标识,可以直接从语料库中获取历史行为序列。
S602,根据所述历史行为序列,为所述用户在对应操作场景中的历史操作信息标注类别标签。
其中,类别标签包括起始操作标签、中间操作标签、结束操作标签和系统操作标签;
具体的,根据所述历史行为序列,确定用户在对应操作场景中的起始操作、中间操作、结束操作、crash操作(异常操作)和系统操作;
将起始操作对应的操作信息标注起始操作标签、中间操作对应的操作信息标注中间操作标签、结束操作以及crash操作对应的操作信息标注结束操作标签以及系统操作对应的操作信息标注系统操作标签。
S603,将所述用户的历史操作信息转换成自然语言语句。
S604,对所述自然语言语句进行分词,并将每一个词通过词向量模型转换成词向量,以得到与所述类别标签相对应的词向量。
S605,将用户的历史行为序列中每条操作信息对应的词向量和每个词向量对应标注的类别标签作为输入量输入到BiLSTM+CRF中,得到BiLSTM+CRF输出的每个词向量对应的类别标签。
S606,输出每个词向量对应的类别标签。
具体的,将每个词向量与词向量对应的类别标签反复输入到BiLSTM+CRF中进行训练,反复优化BiLSTM+CRF,直至BiLSTM+CRF输出精确的标注结果。
需要说明的是,上述步骤中未详细说明的部分可以参考图2和图3所示实施例中相关步骤的详细描述,此处不再重复说明。
本实施例中,通过采用大量的训练样本训练BiLSTM+CRF,并不断优化BiLSTM+CRF的输出结果,最终得到BiLSTM+CRF模型,BiLSTM+CRF模型可以自动为用户的操作信息标注类别标签,大大提高了标签标注的速率和准确率,降低了人工和时间成本。
图7是本发明一示例性实施例示出的基于大数据的场景提取装置的结构示意图。
如图7所示,本实施例提供的装置包括:
信息提取模块701,用于在预先建立的语料库中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息;
信息处理模块702,用于对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系;
类别标注模块703,用于根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系;
场景提取模块704,用于根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,以根据所述场景操作序列确定用户的操作场景。
本实施例中各个模块的详细功能描述请参考有关该方法的实施例中的描述,此处不做详细阐述说明。
图8为本发明实施例提供的基于大数据的场景提取设备的硬件结构示意图。如图8所示,本实施例提供的基于大数据的场景提取设备800包括:至少一个处理器801和存储器802。其中,处理器801、存储器802通过总线803连接。
在具体实现过程中,至少一个处理器801执行所述存储器802存储的计算机执行指令,使得至少一个处理器801执行上述方法实施例中的基于大数据的场景提取方法。
处理器801的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图8所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请的另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述方法实施例中的基于大数据的场景提取方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种基于大数据的场景提取方法,其特征在于,包括:
在预先建立的语料库中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息;
对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系;
根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系;
根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,以根据所述场景操作序列确定用户的操作场景;
所述根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签之前,所述方法还包括:
确定训练样本,所述训练样本包括用户的历史操作信息对应的词向量以及每个词向量对应的类别标签;
将所述训练样本输入BiLSTM+CRF进行训练,得到BiLSTM+CRF模型。
2.根据权利要求1所述的方法,其特征在于,所述类别标签包括操作场景的起始操作标签、中间操作标签、结束操作标签和系统操作标签;
所述根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,包括:
选取任意一个起始操作标签对应的第一词向量;
获取所述中间操作标签对应的词向量中与所述第一词向量相关联的第二词向量,所述第二词向量的数量为0个或多个;
获取所述结束操作标签对应的词向量中与所述第一词向量或所述第二词向量相关联的第三词向量;
将所述第一词向量、所述第二词向量和所述第三词向量在所述日志文本中分别对应的操作信息确定为一个场景操作序列。
3.根据权利要求1所述的方法,其特征在于,所述在预先建立的语料库中提取用户的日志文本之前,所述方法还包括:
将用户在驾驶时的所有操作信息转换成自然语言语句;
根据所述自然语言语句生成日志文本,并将所述日志文本存储到语料库中。
4.根据权利要求1所述的方法,其特征在于,所述语料库中存储有所有用户的用户标识以及每个用户的历史操作信息;
所述确定训练样本,包括:
根据用户标识,确定每个用户的历史行为序列,所述历史行为序列包括至少一条历史操作信息;
根据所述历史行为序列,为所述用户在对应操作场景中的历史操作信息标注类别标签;
将所述用户的历史操作信息转换成自然语言语句;
对所述自然语言语句进行分词,并将每一个词通过词向量模型转换成词向量,以得到与所述类别标签相对应的词向量。
5.根据权利要求4所述的方法,其特征在于,所述类别标签包括起始操作标签、中间操作标签、结束操作标签和系统操作标签;
所述根据所述历史行为序列,为所述用户在对应操作场景中的历史操作信息标注类别标签,包括:
根据所述历史行为序列,确定用户在对应操作场景中的起始操作、中间操作、结束操作和系统操作;
将起始操作对应的操作信息标注起始操作标签、中间操作对应的操作信息标注中间操作标签、结束操作和异常操作对应的操作信息标注结束操作标签以及系统操作对应的操作信息标注系统操作标签。
6.根据权利要求4所述的方法,其特征在于,所述将所述训练样本输入BiLSTM+CRF进行训练,包括:
将用户的历史行为序列中每条操作信息对应的词向量和每个词向量对应标注的类别标签作为输入量输入BiLSTM+CRF,得到BiLSTM+CRF输出的每个词向量对应的类别标签。
7.一种基于大数据的场景提取装置,其特征在于,包括:
信息提取模块,用于在预先建立的语料库中提取用户的日志文本,所述日志文本包括用户在车辆内至少一个操作场景中的操作信息;
信息处理模块,用于对所述日志文本内的语句进行分词处理,并将每一个词通过预先建立的词向量模型转化成词向量,其中,所述词向量与用户的操作信息为一一对应的关系;
类别标注模块,用于根据所述词向量和预先训练得到的BiLSTM+CRF模型,得到每个词向量的类别标签,所述BiLSTM+CRF模型用于表征词向量与类别标签的对应关系;所述BiLSTM+CRF模型通过将包括用户的历史操作信息对应的词向量以及每个词向量对应的类别标签的训练样本输入BiLSTM+CRF进行训练得到;
场景提取模块,用于根据每个词向量对应的类别标签,对所述日志文本中的操作信息进行划分,得到场景操作序列,以根据所述场景操作序列确定用户的操作场景。
8.一种基于大数据的场景提取设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的基于大数据的场景提取方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的基于大数据的场景提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357568.8A CN111124925B (zh) | 2019-12-25 | 2019-12-25 | 基于大数据的场景提取方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911357568.8A CN111124925B (zh) | 2019-12-25 | 2019-12-25 | 基于大数据的场景提取方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111124925A CN111124925A (zh) | 2020-05-08 |
CN111124925B true CN111124925B (zh) | 2024-04-05 |
Family
ID=70502264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911357568.8A Active CN111124925B (zh) | 2019-12-25 | 2019-12-25 | 基于大数据的场景提取方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111124925B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306982B (zh) * | 2020-11-16 | 2021-07-16 | 杭州海康威视数字技术股份有限公司 | 异常用户检测方法、装置、计算设备及存储介质 |
CN113051607B (zh) * | 2021-03-11 | 2022-04-19 | 天津大学 | 一种隐私政策信息提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN109543516A (zh) * | 2018-10-16 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 签约意向判断方法、装置、计算机设备和存储介质 |
CN110162627A (zh) * | 2019-04-28 | 2019-08-23 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
WO2019210820A1 (zh) * | 2018-05-03 | 2019-11-07 | 华为技术有限公司 | 一种信息输出方法及装置 |
-
2019
- 2019-12-25 CN CN201911357568.8A patent/CN111124925B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
WO2019210820A1 (zh) * | 2018-05-03 | 2019-11-07 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN109543516A (zh) * | 2018-10-16 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 签约意向判断方法、装置、计算机设备和存储介质 |
CN110162627A (zh) * | 2019-04-28 | 2019-08-23 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
叶辉 ; 姬东鸿 ; .基于多特征条件随机场的《金匮要略》症状药物信息抽取研究.中国中医药图书情报杂志.2016,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111124925A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6799574B2 (ja) | 音声対話の満足度の確定方法及び装置 | |
CN110543552B (zh) | 对话交互方法、装置及电子设备 | |
CN107622054B (zh) | 文本数据的纠错方法及装置 | |
CN109360550B (zh) | 语音交互系统的测试方法、装置、设备和存储介质 | |
CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN107679032A (zh) | 语音转换纠错方法和装置 | |
CN111124925B (zh) | 基于大数据的场景提取方法、装置、设备和存储介质 | |
CN109299399B (zh) | 一种学习内容的推荐方法及终端设备 | |
CN110956016B (zh) | 一种文档内容格式的调整方法、装置及电子设备 | |
CN113590102B (zh) | 一种零代码快速软件开发方法、系统、介质和设备 | |
CN107798123A (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
CN110890088B (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN112151034B (zh) | 设备的语音控制方法、装置、电子设备及存储介质 | |
CN111724909A (zh) | 一种结合rpa和ai的疫情排查方法和装置 | |
CN111354354A (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN114490929A (zh) | 一种招投标信息采集方法、装置、存储介质及终端设备 | |
CN114595332A (zh) | 文本分类的预测方法、装置和电子设备 | |
US20210357806A1 (en) | Machine learning model training method and machine learning model training device | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN114155841A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN110704742B (zh) | 一种特征提取方法及装置 | |
CN104966513B (zh) | 语言命令处理方法和装置 | |
CN112633019B (zh) | 一种双语样本生成方法、装置、电子设备及存储介质 | |
CN116153314A (zh) | 训练数据生成方法及装置 | |
CN117668151A (zh) | 一种智能问答方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |