CN115238028A - 一种车辆用用户文本数据关键词匹配方法及装置 - Google Patents

一种车辆用用户文本数据关键词匹配方法及装置 Download PDF

Info

Publication number
CN115238028A
CN115238028A CN202210685487.6A CN202210685487A CN115238028A CN 115238028 A CN115238028 A CN 115238028A CN 202210685487 A CN202210685487 A CN 202210685487A CN 115238028 A CN115238028 A CN 115238028A
Authority
CN
China
Prior art keywords
node
condition
retrieval
retrieval condition
transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210685487.6A
Other languages
English (en)
Inventor
杨春辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202210685487.6A priority Critical patent/CN115238028A/zh
Publication of CN115238028A publication Critical patent/CN115238028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种车辆用用户文本数据关键词匹配方法及装置。所述车辆用用户文本数据关键词匹配方法包括:获取关键词数据库,所述关键词数据库中包括关键词;根据各个所述关键词构成有限状态自动机获取待检索文本;将待检索文本输入至有限状态自动机中,从而获取满足检索条件以及满足转移条件至少一个后所获取的应对指令信息;根据应对指令信息获取待输出关键词。本申请设计了一个有限状态自动机,其中设置有节点转移连接线,在节点转移连接线的作用下,可以使得进行关键词匹配过程中,一些待检索文字特征如果符合节点转移连接线的转移条件时,不需要再从初始节点开始进行匹配,从而节省了时间,节约了算力,能够大幅度提高数据的时效性。

Description

一种车辆用用户文本数据关键词匹配方法及装置
技术领域
本申请涉及车载关键字提取技术领域,具体涉及一种车辆用用户文本数据关键词匹配方法及车辆用用户文本数据关键词匹配装置、车辆用户文本关键词获取方法。
背景技术
随着车辆网近些年的普及,随之也产生了大量车辆数据。对数据按照特定关键词进行匹配分类是实际数据开发中的一项重点工作。
现有技术问题:
1.普通的算法对大文本的关键词搜索匹配效率非常低下,通常多关键词情况下匹配大量文本时,会针对每一个关键词而去扫描一遍文本,其时间复杂度为O(n*m),这样会消耗大量的时间和硬件资源。
2.目前数据都是进入数仓再进行后续的相关操作,相关业务的时效性得不到有效的保证。
因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足。
发明内容
本发明的目的在于提供一种车辆用用户文本数据关键词匹配方法来至少解决上述的一个技术问题。
本发明的一个方面,提供一种车辆用用户文本数据关键词匹配方法,所述车辆用用户文本数据关键词匹配方法包括:
获取关键词数据库,所述关键词数据库中包括关键词;
根据各个所述关键词构成有限状态自动机,所述有限状态自动机包括:
检索应对节点,所述检索应对节点包括一个初始节点、至少一个第一节点以及至少一个第二节点,每个检索应对节点上设置有至少一个应对指令信息;
检索条件连接线,每个检索条件连接线包括一个检索条件,所述检索条件连接线包括起始连接点以及指向连接点,所述初始节点与至少一个检索条件连接线的起始连接点连接;所述第一节点与至少一个检索条件连接线的起始连接点连接且与至少一个检索条件连接线的指向连接点连接;所述第二节点与至少一个检索条件连接线的指向连接点连接,当满足检索条件时,获取该检索条件连接线的指向连接点所连接的节点的应对指令信息;
节点转移连接线,每个节点转移连接线包括一个转移条件,所述节点转移连接线包括转移起始连接点以及转移指向连接点,节点转移连接线用于将一个第二节点与一个第一节点或第二节点连接或者用于将一个第一节点与另一个第一节点连接,被同一个节点转移连接线连接的第二节点与第一节点或第二节点中,第二节点所连接的检索条件连接线与第一节点或另一个第二节点所连接的检索条件连接线中的一个具有相同的判断条件;被同一个节点转移连接线连接的两个第一节点中,其中一个第一节点所连接的一个检索条件连接线与另一个第一节点所连接的检索条件连接线中的一个具有相同的判断条件,当满足转移条件时,获取该节点转移连接线的转移指向连接点所连接的节点的应对指令信息;
节点转移连接线中与转移指向连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第一链条检索条件组合;
所述节点转移连接线中与转移起始连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第二链条检索条件组合;
所述第一链条检索条件组合中的每个检索条件均能够在第二链条组合中的各个检索条件中找到相同的检索条件,第二链条组合中的各个与第一链条检索条件组合中的检索条件相同的检索条件之间的判断顺序与第一链条检索条件组合中的各个检索条件的判断顺序相同;
所述第二链条检索条件组合中的各个检索条件中,部分检索条件与第一链条检索条件组合中的检索条件相同,且部分检索条件中任意一个检索条件所对应的节点转移连接线与部分检索条件中其他检索条件所对应的节点转移连接线中的一个具有相同的连接节点;
获取待检索文本;
将所述待检索文本输入至所述有限状态自动机中,从而获取满足检索条件以及满足转移条件至少一个后所获取的应对指令信息;
根据所述应对指令信息获取待输出关键词。
可选地,所述待检索文本包括待检索文字特征;
所述检索条件包括:
判断待检索文字特征与预设文字特征是否相同,若是,则
判断满足检索条件。
可选地,所述应对指令信息包括:
输出指令,当检索应对节点具有所述输出指令时,获取初始节点至该检索对应节点之间的所有的检索条件中的预设文字特征;
将各个获取到的预设文字特征以初始节点至该具有输出指令的检索对应节点的顺序进行排序,从而获取具有位置信息的各个预设文字特征;
将具有位置信息的各个预设文字特征作为输出信息输出。
可选地,所述应对指令信息进一步包括:
继续判断指令,所述检索应对节点具有继续判断指令时,获取与该检索应对节点通过起始连接点连接的检索条件连接线的检索条件,该检索条件称为继续判断条件;
对获取该继续判断指令后的待检索文本根据继续判断条件进行判断。
可选地,所述应对指令信息进一步包括:
转移指令,当检索应对节点具有转移指令时,获取与该检索应对节点通过转移起始连接点连接的节点转移连接线的转移条件;
对获取该转移指令后的待检索文本根据转移条件进行判断。
可选地,所述第二节点至少具有输出指令;
所述初始节点只具有继续判断指令。
本申请还提供了一种车辆用用户文本数据关键词匹配装置,所述车辆用用户文本数据关键词匹配装置包括:
关键词数据库获取模块,所述关键词数据库获取模块用于获取关键词数据库,所述关键词数据库中包括关键词;
有限状态自动机生成模块,所述有限状态自动机生成模块用于根据各个所述关键词构成有限状态自动机,所述有限状态自动机包括:
检索应对节点,所述检索应对节点包括一个初始节点、至少一个第一节点以及至少一个第二节点,每个检索应对节点上设置有至少一个应对指令信息;
检索条件连接线,每个检索条件连接线包括一个检索条件,所述检索条件连接线包括起始连接点以及指向连接点,所述初始节点与至少一个检索条件连接线的起始连接点连接;所述第一节点与至少一个检索条件连接线的起始连接点连接且与至少一个检索条件连接线的指向连接点连接;所述第二节点与至少一个检索条件连接线的指向连接点连接,当满足检索条件时,获取该检索条件连接线的指向连接点所连接的节点的应对指令信息;
节点转移连接线,每个节点转移连接线包括一个转移条件,所述节点转移连接线包括转移起始连接点以及转移指向连接点,节点转移连接线用于将一个第二节点与一个第一节点或第二节点连接或者用于将一个第一节点与另一个第一节点连接,被同一个节点转移连接线连接的第二节点与第一节点或第二节点中,第二节点所连接的检索条件连接线与第一节点或另一个第二节点所连接的检索条件连接线中的一个具有相同的判断条件;被同一个节点转移连接线连接的两个第一节点中,其中一个第一节点所连接的一个检索条件连接线与另一个第一节点所连接的检索条件连接线中的一个具有相同的判断条件,当满足转移条件时,获取该节点转移连接线的转移指向连接点所连接的节点的应对指令信息;
节点转移连接线中与转移指向连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第一链条检索条件组合;
所述节点转移连接线中与转移起始连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第二链条检索条件组合;
所述第一链条检索条件组合中的每个检索条件均能够在第二链条组合中的各个检索条件中找到相同的检索条件,第二链条组合中的各个与第一链条检索条件组合中的检索条件相同的检索条件之间的判断顺序与第一链条检索条件组合中的各个检索条件的判断顺序相同;
所述第二链条检索条件组合中的各个检索条件中,部分检索条件与第一链条检索条件组合中的检索条件相同,且部分检索条件中任意一个检索条件所对应的节点转移连接线与部分检索条件中其他检索条件所对应的节点转移连接线中的一个具有相同的连接节点;
待检索文本获取模块,所述待检索文本获取模块用于获取待检索文本;
匹配模块,所述匹配模块用于将所述待检索文本输入至所述有限状态自动机中,从而获取满足检索条件和/或满足转移条件后所获取的应对指令信息;
待输出关键词获取模块,所述待输出关键词获取模块用于根据所述应对指令信息获取待输出关键词。
本申请还提供了一种车辆用户文本关键词获取方法,所述车辆用户文本关键词获取方法包括:
车载娱乐主机获取预设时间段内的一个或多个待检索文本;
车载娱乐主机将获取的一个或多个待检索文本传输给云服务器;
云服务器根据如上所述的车辆用用户文本数据关键词匹配方法获取到待输出关键词。
可选地,在所述云服务器根据如上所述的车辆用用户文本数据关键词匹配方法获取到待输出关键词过程中,所述服务器并行处理多个待检索文本。
可选地,所述车辆用户文本关键词获取方法进一步包括:
云服务器获取发送给其待检索文本的车载娱乐主机的标识信息;
将所述标识信息与所述待输出关键词进行关联并存储至用户习惯数据库。
有益效果
本申请的车辆用用户文本数据关键词匹配方法设计了一个有限状态自动机,其中设置有节点转移连接线,在节点转移连接线的作用下,可以使得进行关键词匹配过程中,一些待检索文字特征如果符合节点转移连接线的转移条件时,不需要再从初始节点开始进行匹配,从而节省了时间,节约了算力,能够大幅度提高数据的时效性。
附图说明
图1是本申请一实施例的车辆用用户文本数据关键词匹配方法的流程示意图。
图2是本申请一实施例的能够实现本申请的车辆用用户文本数据关键词匹配方法的电子设备示意图。
图3是本申请一实施例的有限状态自动机的示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。
图1是本申请一实施例的车辆用用户文本数据关键词匹配方法的流程示意图。
如图1所示的车辆用用户文本数据关键词匹配方法包括:
步骤1:获取关键词数据库,所述关键词数据库中包括关键词;
步骤2:根据各个所述关键词构成有限状态自动机,所述有限状态自动机包括:
检索应对节点,所述检索应对节点包括一个初始节点、至少一个第一节点以及至少一个第二节点,每个检索应对节点上设置有至少一个应对指令信息;
检索条件连接线,每个检索条件连接线包括一个检索条件,所述检索条件连接线包括起始连接点以及指向连接点,所述初始节点与至少一个检索条件连接线的起始连接点连接;所述第一节点与至少一个检索条件连接线的起始连接点连接且与至少一个检索条件连接线的指向连接点连接;所述第二节点与至少一个检索条件连接线的指向连接点连接,当满足检索条件时,获取该检索条件连接线的指向连接点所连接的节点的应对指令信息;
节点转移连接线,每个节点转移连接线包括一个转移条件,所述节点转移连接线包括转移起始连接点以及转移指向连接点,节点转移连接线用于将一个第二节点与一个第一节点或第二节点连接或者用于将一个第一节点与另一个第一节点连接,被同一个节点转移连接线连接的第二节点与第一节点或第二节点中,第二节点所连接的检索条件连接线与第一节点或另一个第二节点所连接的检索条件连接线中的一个具有相同的判断条件;被同一个节点转移连接线连接的两个第一节点中,其中一个第一节点所连接的一个检索条件连接线与另一个第一节点所连接的检索条件连接线中的一个具有相同的判断条件,当满足转移条件时,获取该节点转移连接线的转移指向连接点所连接的节点的应对指令信息;
节点转移连接线中与转移指向连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第一链条检索条件组合;
所述节点转移连接线中与转移起始连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第二链条检索条件组合;
所述第一链条检索条件组合中的每个检索条件均能够在第二链条组合中的各个检索条件中找到相同的检索条件,第二链条组合中的各个与第一链条检索条件组合中的检索条件相同的检索条件之间的判断顺序与第一链条检索条件组合中的各个检索条件的判断顺序相同;
所述第二链条检索条件组合中的各个检索条件中,部分检索条件与第一链条检索条件组合中的检索条件相同,且部分检索条件中任意一个检索条件所对应的节点转移连接线与部分检索条件中其他检索条件所对应的节点转移连接线中的一个具有相同的连接节点;
步骤3:获取待检索文本;
步骤4:将所述待检索文本输入至所述有限状态自动机中,从而获取满足检索条件以及满足转移条件至少一个后所获取的应对指令信息;
步骤5:根据所述应对指令信息获取待输出关键词。
本申请的车辆用用户文本数据关键词匹配方法设计了一个有限状态自动机,其中设置有节点转移连接线,在节点转移连接线的作用下,可以使得进行关键词匹配过程中,一些待检索文字特征如果符合节点转移连接线的转移条件时,不需要再从初始节点开始进行匹配,从而节省了时间,节约了算力,能够大幅度提高数据的时效性。
在本实施例中,所述待检索文本包括待检索文字特征;
所述检索条件包括:
判断待检索文字特征与预设文字特征是否相同,若是,则
判断满足检索条件。
可以理解的是,各个检索条件中的预设文字特征可以相同,也可以不同。
在本实施例中,应对指令信息包括:
输出指令,当检索应对节点具有所述输出指令时,获取初始节点至该检索对应节点之间的所有的检索条件中的预设文字特征;
将各个获取到的预设文字特征以初始节点至该具有输出指令的检索对应节点的顺序进行排序,从而获取具有位置信息的各个预设文字特征;
将具有位置信息的各个预设文字特征作为输出信息输出。
在本实施例中,所述应对指令信息进一步包括:
继续判断指令,所述检索应对节点具有继续判断指令时,获取与该检索应对节点通过起始连接点连接的检索条件连接线的检索条件,该检索条件称为继续判断条件;
对获取该继续判断指令后的待检索文本根据继续判断条件进行判断。
在本实施例中,所述应对指令信息进一步包括:
转移指令,当检索应对节点具有转移指令时,获取与该检索应对节点通过转移起始连接点连接的节点转移连接线的转移条件;
对获取该转移指令后的待检索文本根据转移条件进行判断。
在本实施例中,所述第二节点至少具有输出指令;
所述初始节点只具有继续判断指令。
下面以举例的方式对本申请进行进一步详细阐述,可以理解的是,该举例并不构成对本申请的任何限制。
在举例中,待检索文本为数据字符串“ushers”,关键词数据库中的关键词包括“he/she/his/hers”。
参见图3,本申请根据关键词数据库中的关键词所构成的有限状态自动机如图3所示。
参见图3,在图3中,序号1至9的各个圆圈为检索应对节点,其中,序号为0圆圈的代表初始节点,其他圆圈中,各个空心圆圈(序号为1、3、4、6、8)为第一节点,,另外的实心圆圈(序号为2、5、7、9)为第二节点。
参见图3,在图3中,各个实线连接线为检索条件连接线,其中带有箭头的一端为指向连接点,另一端为起始连接点,从图3中可以看出,初始节点与至少一个检索条件连接线的起始连接点连接(即与检索条件连接线11、检索条件连接线12连接);第一节点与至少一个检索条件连接线的起始连接点连接且与至少一个检索条件连接线的指向连接点连接(例如序号为4的节点,其与检索条件连接线16的指向连接点连接,又与检索条件连接线18的起始连接点连接);所述第二节点与至少一个检索条件连接线的指向连接点连接(例如序号为5的节点,其与检索条件连接线18的指向连接点连接),当满足检索条件时,获取该检索条件连接线的指向连接点所连接的节点的应对指令信息,例如,在本实施例中,检索条件包括:判断待检索文字特征与预设文字特征是否相同,例如,检索条件连接线18的检索条件为:判断待检索文字特征与预设文字特征e是否相同,若相同则满足检索条件连接线18的检索条件。
参见图3,在图3中,各个虚线连接线为节点转移连接线,每个节点转移连接线包括一个转移条件,节点转移连接线包括转移起始连接点以及转移指向连接点,节点转移连接线用于将一个第二节点与一个第一节点或第二节点连接(例如,序号为5的节点与序号为2的节点连接,或者序号为7的节点与序号为3的节点连接)或者用于将一个第一节点与另一个第一节点连接(例如,序号为4的节点与序号为1的节点),被同一个节点转移连接线连接的第二节点与第一节点或第二节点中,第二节点所连接的检索条件连接线与第一节点或第二节点所连接的检索条件连接线中的一个具有相同的判断条件(例如,序号为5的节点与序号为2的节点连接,可以看到序号5的检索条件连接线18的判断条件为判断待检索文字特征与预设文字特征e是否相同,而序号为2的检索条件连接线13,其判断条件也是判断待检索文字特征与预设文字特征e是否相同);被同一个节点转移连接线连接的两个第一节点中,其中一个第一节点所连接的一个检索条件连接线与另一个第一节点所连接的检索条件连接线中的一个具有相同的判断条件,当满足转移条件时,获取该节点转移连接线的转移指向连接点所连接的节点的应对指令信息,在本实施例中,转移条件为,待检索文本在通过本申请的有限状态自动机运行至该节点转移连接线的转移起始连接点所连接的检索应对节点后,还具有待检索文字特征需要进行比对但是盖待检索应对节点后边没有检索条件连接线,或者有检索条件连接线,但是不满足下一个检索条件连接线时,满足转移条件。
以本申请距离来说,本申请的待检索文本为“ushers”,在输入至有限状态自动机中,首先进行待检索文字特征u的检索,通过图3可以看出,初始节点与序号1的节点、序号2的节点之间的判断条件其都不满足,因此,从待检索文本为“ushers”的第二个字母s进行判断,从图中可以看出,其满足检索条件连接线12的判断调件,则获取序号为3的节点上的应对指令信息,在本实施例中,序号为3的节点上的应对指令信息为继续判断指令,则“ushers”的第三个字母h进行判断,从图中可以看出,其满足检索条件连接线16的判断调件,获取序号为4的节点上的应对指令信息,在本实施例中,序号为4的节点上的应对指令信息为继续判断指令,则获取“ushers”的第四个字母e进行判断,图中可以看出,其满足检索条件连接线16的判断调件,获取序号为4的节点上的应对指令信息,在本实施例中,序号为4的节点上的应对指令信息包括输出指令以及转移指令,由于具有输出指令,因此,取初始节点至该检索对应节点之间的所有的检索条件中的预设文字特征(即she);
将各个获取到的预设文字特征以初始节点至该具有输出指令的检索对应节点的顺序进行排序(即按照s、h、e的顺序进行排序),从而获取具有位置信息的各个预设文字特征(she)。
另外,由于序号为4还包括转移指令,因此,判断是否满足转移条件,从图3可以看出,“ushers”的e后边还有待检索文字特征,而序号为4的节点后边已经没有检索条件连接线,因此,满足转移条件,则获取序号为2的节点的应对指令信息,在本实施例中,序号为2的节点的应对指令信息为继续判断指令以及输出指令,在本实施例中,输出指令进行输出时,还要满足一个条件,即不能是通过节点转移连接线获取到,在本实施例中,由于是通过节点转移连接线获取到该序号为2的节点的应对指令信息,因此,只获取继续判断指令,此时,即判断是否满足检索条件连接线14即可。
在本实施例中,节点转移连接线中与转移指向连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件组合成为第一链条检索条件组合,以节点转移连接线24为例,节点转移连接线24的转移指向连接点所连接的节点为序号为2的节点,序号2的节点与初始节点之间所形成的连接路径即为检索条件连接线13、检索条件连接线11,检索条件连接线13以及检索条件连接线11所具有的检索条件组合成为第一链条检索条件组合(即检索条件连接线13的检索条件为判断待检索文字特征与预设文字特征e是否相同,检索条件连接线11的检索条件为判断待检索文字特征与预设文字特征h是否相同),即第一链条检索条件组合为判断待检索文字特征与预设文字特征e是否相同以及判断待检索文字特征与预设文字特征h是否相同。
节点转移连接线中与转移起始连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第二链条检索条件组合;以节点转移连接线24为例,节点转移连接线24的转移起始连接点所连接的节点为序号为5的节点,序号5的节点与初始节点之间所形成的连接路径即为检索条件连接线18、检索条件连接线16、检索条件连接线12,检索条件连接线18、检索条件连接线16、检索条件连接线12所具有的检索条件组合成为第二链条检索条件组合(即检索条件连接线18的检索条件为判断待检索文字特征与预设文字特征e是否相同,检索条件连接线16的检索条件为判断待检索文字特征与预设文字特征h是否相同以及检索条件连接线12的检索条件为判断待检索文字特征与预设文字特征s是否相同)。
第一链条检索条件组合中的每个检索条件均能够在第二链条组合中的各个检索条件中找到相同的检索条件,第二链条组合中的各个与第一链条检索条件组合中的检索条件相同的检索条件之间的判断顺序与第一链条检索条件组合中的各个检索条件的判断顺序相同;
第二链条检索条件组合中的各个检索条件中,部分检索条件与第一链条检索条件组合中的检索条件相同,且部分检索条件中任意一个检索条件所对应的节点转移连接线与部分检索条件中其他检索条件所对应的节点转移连接线中的一个具有相同的连接节点;
从上述即可以看出,检索条件连接线18的检索条件与检索条件连接线13的检索条件相同,检索条件连接线16的检索条件与检索条件连接线11的检索条件,且判断顺序也相同,即从第一链可以看出,是先判断检索条件连接线11的检索条件再判断检索条件连接线13的检索条件,从第二链看出,是先判断检索条件连接线16的检索条件,再判断检索条件连接线18的检索条件。
本申请还提供了一种车辆用用户文本数据关键词匹配装置,所述车辆用用户文本数据关键词匹配装置包括关键词数据库获取模块,有限状态自动机生成模块、待检索文本获取模块、匹配模块以及待输出关键词获取模块,关键词数据库获取模块用于获取关键词数据库,所述关键词数据库中包括关键词;
有限状态自动机生成模块用于根据各个所述关键词构成有限状态自动机,所述有限状态自动机包括:
检索应对节点,所述检索应对节点包括一个初始节点、至少一个第一节点以及至少一个第二节点,每个检索应对节点上设置有至少一个应对指令信息;
检索条件连接线,每个检索条件连接线包括一个检索条件,所述检索条件连接线包括起始连接点以及指向连接点,所述初始节点与至少一个检索条件连接线的起始连接点连接;所述第一节点与至少一个检索条件连接线的起始连接点连接且与至少一个检索条件连接线的指向连接点连接;所述第二节点与至少一个检索条件连接线的指向连接点连接,当满足检索条件时,获取该检索条件连接线的指向连接点所连接的节点的应对指令信息;
节点转移连接线,每个节点转移连接线包括一个转移条件,所述节点转移连接线包括转移起始连接点以及转移指向连接点,节点转移连接线用于将一个第二节点与一个第一节点连接或者用于将一个第一节点与另一个第一节点连接,被同一个节点转移连接线连接的第二节点与第一节点中,第二节点所连接的检索条件连接线与第一节点所连接的检索条件连接线中的一个具有相同的判断条件;被同一个节点转移连接线连接的两个第一节点中,其中一个第一节点所连接的一个检索条件连接线与另一个第一节点所连接的检索条件连接线中的一个具有相同的判断条件,当满足转移条件时,获取该节点转移连接线的转移指向连接点所连接的节点的应对指令信息;
节点转移连接线中与转移指向连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第一链条检索条件组合;
所述节点转移连接线中与转移起始连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第二链条检索条件组合;
所述第一链条检索条件组合中的每个检索条件均能够在第二链条组合中的各个检索条件中找到相同的检索条件,第二链条组合中的各个与第一链条检索条件组合中的检索条件相同的检索条件之间的判断顺序与第一链条检索条件组合中的各个检索条件的判断顺序相同;
所述第二链条检索条件组合中的各个检索条件中,部分检索条件与第一链条检索条件组合中的检索条件相同,且部分检索条件中任意一个检索条件所对应的节点转移连接线与部分检索条件中其他检索条件所对应的节点转移连接线中的一个具有相同的连接节点;
待检索文本获取模块用于获取待检索文本;
匹配模块用于将所述待检索文本输入至所述有限状态自动机中,从而获取满足检索条件和/或满足转移条件后所获取的应对指令信息;
待输出关键词获取模块用于根据所述应对指令信息获取待输出关键词。
本申请还提供了一种车辆用户文本关键词获取方法,所述车辆用户文本关键词获取方法包括:
车载娱乐主机获取预设时间段内的一个或多个待检索文本;
车载娱乐主机将获取的一个或多个待检索文本传输给云服务器;
云服务器根据如上所述的车辆用用户文本数据关键词匹配方法获取到待输出关键词。
在本实施例中,在云服务器根据如上所述的车辆用用户文本数据关键词匹配方法获取到待输出关键词过程中,所述服务器并行处理多个待检索文本。
在本实施例中,所述车辆用户文本关键词获取方法进一步包括:
云服务器获取发送给其待检索文本的车载娱乐主机的标识信息;
将所述标识信息与所述待输出关键词进行关联并存储至用户习惯数据库。
本申请具有如下优点:
基于Aho-Corasick匹配算法的进一步改进,此算法的时间复杂度与关键字的数目无关,只跟文本长度有关,匹配时只会对文本扫描一遍,即可完成匹配任务。其时间复杂度为O(n),优于O(n*m),匹配效率提升m倍。
2.将算法改进后应用到进入数据仓库之前,采用数据流实时匹配,大幅度提高了数据的时效性。
可以理解的是,上述对方法的描述,也同样适用于对装置的描述。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的车辆用用户文本数据关键词匹配方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的车辆用用户文本数据关键词匹配方法。
图2是能够实现根据本申请一个实施例提供的车辆用用户文本数据关键词匹配方法的电子设备的示例性结构图。
如图2所示,电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与电子设备的其他组件连接。具体地,输入设备504接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到电子设备的外部供用户使用。
也就是说,图2所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的车辆用用户文本数据关键词匹配方法。
在一个实施例中,图2所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的车辆用用户文本数据关键词匹配方法。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本实施例中所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上,但其实并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此,本申请的保护范围应当以本申请权利要求所界定的范围为准。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种车辆用用户文本数据关键词匹配方法,其特征在于,所述车辆用用户文本数据关键词匹配方法包括:
获取关键词数据库,所述关键词数据库中包括关键词;
根据各个所述关键词构成有限状态自动机,所述有限状态自动机包括:
检索应对节点,所述检索应对节点包括一个初始节点、至少一个第一节点以及至少一个第二节点,每个检索应对节点上设置有至少一个应对指令信息;
检索条件连接线,每个检索条件连接线包括一个检索条件,所述检索条件连接线包括起始连接点以及指向连接点,所述初始节点与至少一个检索条件连接线的起始连接点连接;所述第一节点与至少一个检索条件连接线的起始连接点连接且与至少一个检索条件连接线的指向连接点连接;所述第二节点与至少一个检索条件连接线的指向连接点连接,当满足检索条件时,获取该检索条件连接线的指向连接点所连接的节点的应对指令信息;
节点转移连接线,每个节点转移连接线包括一个转移条件,所述节点转移连接线包括转移起始连接点以及转移指向连接点,节点转移连接线用于将一个第二节点与一个第一节点或第二节点连接或者用于将一个第一节点与另一个第一节点连接,被同一个节点转移连接线连接的第二节点与第一节点或第二节点中,第二节点所连接的检索条件连接线与第一节点或另一个第二节点所连接的检索条件连接线中的一个具有相同的判断条件;被同一个节点转移连接线连接的两个第一节点中,其中一个第一节点所连接的一个检索条件连接线与另一个第一节点所连接的检索条件连接线中的一个具有相同的判断条件,当满足转移条件时,获取该节点转移连接线的转移指向连接点所连接的节点的应对指令信息;
节点转移连接线中与转移指向连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第一链条检索条件组合;
所述节点转移连接线中与转移起始连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第二链条检索条件组合;
所述第一链条检索条件组合中的每个检索条件均能够在第二链条组合中的各个检索条件中找到相同的检索条件,第二链条组合中的各个与第一链条检索条件组合中的检索条件相同的检索条件之间的判断顺序与第一链条检索条件组合中的各个检索条件的判断顺序相同;
所述第二链条检索条件组合中的各个检索条件中,部分检索条件与第一链条检索条件组合中的检索条件相同;
获取待检索文本;
将所述待检索文本输入至所述有限状态自动机中,从而获取满足检索条件以及满足转移条件至少一个后所获取的应对指令信息;
根据所述应对指令信息获取待输出关键词。
2.如权利要求1所述的车辆用用户文本数据关键词匹配方法,其特征在于,所述待检索文本包括待检索文字特征;
所述检索条件包括:
判断待检索文字特征与预设文字特征是否相同,若是,则
判断满足检索条件。
3.如权利要求2所述的车辆用用户文本数据关键词匹配方法,其特征在于,所述应对指令信息包括:
输出指令,当检索应对节点具有所述输出指令时,获取初始节点至该检索对应节点之间的所有的检索条件中的预设文字特征;
将各个获取到的预设文字特征以初始节点至该具有输出指令的检索对应节点的顺序进行排序,从而获取具有位置信息的各个预设文字特征;
将具有位置信息的各个预设文字特征作为输出信息输出。
4.如权利要求3所述的车辆用用户文本数据关键词匹配方法,其特征在于,所述应对指令信息进一步包括:
继续判断指令,所述检索应对节点具有继续判断指令时,获取与该检索应对节点通过起始连接点连接的检索条件连接线的检索条件,该检索条件称为继续判断条件;
对获取该继续判断指令后的待检索文本根据继续判断条件进行判断。
5.如权利要求4所述的车辆用用户文本数据关键词匹配方法,其特征在于,所述应对指令信息进一步包括:
转移指令,当检索应对节点具有转移指令时,获取与该检索应对节点通过转移起始连接点连接的节点转移连接线的转移条件;
对获取该转移指令后的待检索文本根据转移条件进行判断。
6.如权利要求5所述的车辆用用户文本数据关键词匹配方法,其特征在于,所述第二节点至少具有输出指令;
所述初始节点只具有继续判断指令。
7.一种车辆用用户文本数据关键词匹配装置,其特征在于,所述车辆用用户文本数据关键词匹配装置包括:
关键词数据库获取模块,所述关键词数据库获取模块用于获取关键词数据库,所述关键词数据库中包括关键词;
有限状态自动机生成模块,所述有限状态自动机生成模块用于根据各个所述关键词构成有限状态自动机,所述有限状态自动机包括:
检索应对节点,所述检索应对节点包括一个初始节点、至少一个第一节点以及至少一个第二节点,每个检索应对节点上设置有至少一个应对指令信息;
检索条件连接线,每个检索条件连接线包括一个检索条件,所述检索条件连接线包括起始连接点以及指向连接点,所述初始节点与至少一个检索条件连接线的起始连接点连接;所述第一节点与至少一个检索条件连接线的起始连接点连接且与至少一个检索条件连接线的指向连接点连接;所述第二节点与至少一个检索条件连接线的指向连接点连接,当满足检索条件时,获取该检索条件连接线的指向连接点所连接的节点的应对指令信息;
节点转移连接线,每个节点转移连接线包括一个转移条件,所述节点转移连接线包括转移起始连接点以及转移指向连接点,节点转移连接线用于将一个第二节点与一个第一节点或第二节点连接或者用于将一个第一节点与另一个第一节点连接,被同一个节点转移连接线连接的第二节点与第一节点或第二节点中,第二节点所连接的检索条件连接线与第一节点或另一个第二节点所连接的检索条件连接线中的一个具有相同的判断条件;被同一个节点转移连接线连接的两个第一节点中,其中一个第一节点所连接的一个检索条件连接线与另一个第一节点所连接的检索条件连接线中的一个具有相同的判断条件,当满足转移条件时,获取该节点转移连接线的转移指向连接点所连接的节点的应对指令信息;
节点转移连接线中与转移指向连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第一链条检索条件组合;
所述节点转移连接线中与转移起始连接点连接的节点与初始节点之间所形成的连接路径中的每个检索条件连接线所具有的检索条件称为第二链条检索条件组合;
所述第一链条检索条件组合中的每个检索条件均能够在第二链条组合中的各个检索条件中找到相同的检索条件,第二链条组合中的各个与第一链条检索条件组合中的检索条件相同的检索条件之间的判断顺序与第一链条检索条件组合中的各个检索条件的判断顺序相同;
所述第二链条检索条件组合中的各个检索条件中,部分检索条件与第一链条检索条件组合中的检索条件相同;
待检索文本获取模块,所述待检索文本获取模块用于获取待检索文本;
匹配模块,所述匹配模块用于将所述待检索文本输入至所述有限状态自动机中,从而获取满足检索条件和/或满足转移条件后所获取的应对指令信息;
待输出关键词获取模块,所述待输出关键词获取模块用于根据所述应对指令信息获取待输出关键词。
8.一种车辆用户文本关键词获取方法,其特征在于,所述车辆用户文本关键词获取方法包括:
车载娱乐主机获取预设时间段内的一个或多个待检索文本;
车载娱乐主机将获取的一个或多个待检索文本传输给云服务器;
云服务器根据如权利要求1至6中任意一项所述的车辆用用户文本数据关键词匹配方法获取到待输出关键词。
9.如权利要求7所述的车辆用户文本关键词获取方法,其特征在于,在所述云服务器根据如权利要求1至6中任意一项所述的车辆用用户文本数据关键词匹配方法获取到待输出关键词过程中,所述服务器并行处理多个待检索文本。
10.如权利要求8或9中任意一项所述的车辆用户文本关键词获取方法,其特征在于,所述车辆用户文本关键词获取方法进一步包括:
云服务器获取发送给其待检索文本的车载娱乐主机的标识信息;
将所述标识信息与所述待输出关键词进行关联并存储至用户习惯数据库。
CN202210685487.6A 2022-06-15 2022-06-15 一种车辆用用户文本数据关键词匹配方法及装置 Pending CN115238028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210685487.6A CN115238028A (zh) 2022-06-15 2022-06-15 一种车辆用用户文本数据关键词匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210685487.6A CN115238028A (zh) 2022-06-15 2022-06-15 一种车辆用用户文本数据关键词匹配方法及装置

Publications (1)

Publication Number Publication Date
CN115238028A true CN115238028A (zh) 2022-10-25

Family

ID=83669040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210685487.6A Pending CN115238028A (zh) 2022-06-15 2022-06-15 一种车辆用用户文本数据关键词匹配方法及装置

Country Status (1)

Country Link
CN (1) CN115238028A (zh)

Similar Documents

Publication Publication Date Title
CN110874440A (zh) 一种信息推送及其模型训练的方法、装置及电子设备
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN108228799B (zh) 对象索引信息的存储方法及装置
CN110232156B (zh) 基于长文本的信息推荐方法及装置
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及系统
CN111897828A (zh) 数据批处理实现方法、装置、设备及存储介质
CN105790967A (zh) 一种网络日志处理方法和装置
CN115827903A (zh) 媒体信息的违规检测方法、装置、电子设备及存储介质
CN113918720A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN113821630B (zh) 一种数据聚类的方法和装置
CN117763077A (zh) 数据查询方法及装置
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN115238028A (zh) 一种车辆用用户文本数据关键词匹配方法及装置
CN115827280A (zh) 消息处理方法、装置、电子设备及存储介质
CN116155597A (zh) 访问请求的处理方法、装置及计算机设备
US11709798B2 (en) Hash suppression
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN112148782B (zh) 市场数据接入方法及装置
CN114463068A (zh) 一种数据处理方法和装置
CN108304467A (zh) 用于文本间匹配的方法
CN111143203B (zh) 机器学习、隐私代码确定方法、装置及电子设备
CN110046180B (zh) 一种用于定位相似实例的方法、装置和电子设备
CN113419792A (zh) 一种事件处理方法、装置、终端设备和存储介质
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN111143626A (zh) 团伙识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination