CN113722467A - 用户搜索意图的处理方法、系统、装置和存储介质 - Google Patents
用户搜索意图的处理方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN113722467A CN113722467A CN202111017358.1A CN202111017358A CN113722467A CN 113722467 A CN113722467 A CN 113722467A CN 202111017358 A CN202111017358 A CN 202111017358A CN 113722467 A CN113722467 A CN 113722467A
- Authority
- CN
- China
- Prior art keywords
- entity
- module
- user
- matched
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 239000003814 drug Substances 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明公开了一种用户搜索意图的处理方法、系统、装置和存储介质,可应用于人工智能技术和医疗领域。本发明方法包括:采用命名实体识别模型从预先获取的第一数据中抽取第一实体;将第一实体与预先构建的功能模块进行绑定;获取当前用户的终端设备的文本信息;采用命名实体识别模型从文本信息中抽取待匹配实体;将待匹配实体与第一实体进行匹配;获取待匹配实体匹配成功的第一实体对应的功能模块作为待显示模块;控制当前用户的终端设备显示所述待显示模块。本发明通过先将实体与功能模块进行绑定,从而使得当前用户的终端设备在进行意图搜索时,终端设备显示的模块与用户终端上传的文本信息相关,降低信息干扰,提高用户筛选目标信息的效率。
Description
技术领域
本发明涉及人工智能技术和医疗领域,尤其是一种用户搜索意图的处理方法、系统、装置和存储介质。
背景技术
相关技术中,在预设软件上进行搜索时,通常会出现与用户意图不相匹配的信息。以医疗领域的软件内容搜索为例,当用户在人机交互界面内容输入与自己意图较为接近的描述词时,软件根据该描述词搜索后,确定要显示的内容,并在交互界面上显示该内容,但是,显示的内容中会出现与用户意图不相符的内容,从而增加了用户对目标内容的筛选时间。
发明内容
本发明实施例提供了一种用户搜索意图的处理方法、系统、装置和存储介质,能够有效提高用户筛选目标信息的效率。
一方面,本发明实施例提供了一种用户搜索意图的处理方法,包括以下步骤:
采用命名实体识别模型从预先获取的第一数据中抽取第一实体;
将所述第一实体与预先构建的功能模块进行绑定;
获取当前用户的终端设备的文本信息;
采用所述命名实体识别模型从所述文本信息中抽取待匹配实体;
将所述待匹配实体与所述第一实体进行匹配;
获取所述待匹配实体匹配成功的所述第一实体对应的功能模块作为待显示模块;
控制所述当前用户的终端设备显示所述待显示模块。
另一方面,本发明实施例提供了一种用户搜索意图的处理系统,包括:
第一抽取模块,用于采用命名实体识别模型从预先获取的第一数据中抽取第一实体;
绑定模块,用于将所述第一实体与预先构建的功能模块进行绑定;
第一获取模块,用于获取当前用户的终端设备的文本信息;
第二抽取模块,用于采用所述命名实体识别模型从所述文本信息中抽取待匹配实体;
匹配模块,用于将所述待匹配实体与所述第一实体进行匹配;
第二获取模块,用于获取所述待匹配实体匹配成功的所述第一实体对应的功能模块作为待显示模块;
控制模块,用于控制所述当前用户的终端设备显示所述待显示模块。
另一方面,本发明实施例提供了一种用户搜索意图的处理装置,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行前面实施例的用户搜索意图的处理方法。
另一方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行前面实施例的用户搜索意图的处理方法。
本发明实施例的有益效果包括:本实施例通过采用命名实体识别模型从预先获取的第一数据中抽取第一实体,并将第一实体与预先构建的功能模块进行绑定,接着获取当前用户的终端设备的文本信息,采用命名实体识别模型从文本信息中抽取待匹配实体,并将待匹配实体与第一实体进行匹配,当匹配成功后,调用待匹配实体匹配成功的第一实体对应的功能模块作为待显示模块,然后控制当前用户的终端设备显示待显示模块,本实施例通过先将实体与功能模块进行绑定,从而使得当前用户的终端设备在进行意图搜索时,终端设备显示的模块与用户终端上传的文本信息相关,降低信息干扰,提高用户筛选目标信息的效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易将,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例的一种小程序界面上医生模块的显示示意图;
图2为本发明实施例的一种小程序界面上药品模块的显示示意图;
图3为本发明实施例的一种小程序界面上另一种药品模块的显示示意图;
图4为本发明实施例的一种用户搜索意图的处理方法的流程图;
图5为本发明实施例的NER模型的训练步骤流程图;
图6为本发明实施例的命名实体识别模型抽取第一实体的流程图;
图7为本发明实施例的语音信息转文字信息的处理流程图;
图8为本发明实施例的一种用户搜索意图的处理系统的模块框图;
图9为本发明实施例的一种用户搜索意图的处理装置的示意图;
图10为本发明实施例的一种计算机设备的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
随着各类功能软件或者各类小程序的开发,用户可以在相应领域的软件或者小程序内进行目标内容的搜索,从而提高搜索准确度。但是,目前不管是在软件上搜索,还是在小程序内搜索,都会显示出一些与用户意图不相关的信息,这些不相关的信息大大增加了用户筛选目标信息的时间。例如,如图1所示,在医院A对应的小程序内,用户B想要搜索张三医生的信息,则可以在医院A对应的小程序界面的搜索输入栏110内输入“张三”,小程序后台会自动匹配显示模块120。从图1中可知,输入“张三”后,匹配到显示模块包括综合、药品、医生、医院、相似病例等,点击这些显示模块,下面的显示页面130即可显示出显示模块对应的具体内容,例如点击“医生”模块后,显示页面130内显示出张三的个人介绍。而当点击“药品”模块后,如图2所示,显示页面130显示出常见药品的介绍,或者如图3所示,显示页面不显示任何信息。但是,常见药品的介绍并不能使用户很好地了解“张三”的个人介绍和相关情况,反而会增加用户对目标信息的筛选时间,以及用户在对每个显示模块进行查看时,也会花费一定的时间,如果这些时间不能使用户获取有效的目标信息,则也在一定程度上增加了用户对目标信息的筛选时间。
基于此,本发明实施例提供了一种用户搜索意图的处理方法、系统、装置和存储介质。本实施例通过先将若干个实体与功能模块进行绑定,从而使得当前用户的终端设备在进行意图搜索时,服务器能够根据输入的实体快速匹配相关的功能模块,并控制终端设备显示该匹配的功能模块,使用户在终端设备只看到相关的功能模块,以有效降低信息干扰,提高用户筛选目标信息的效率。
下面结合附图对本发明的实施例进行具体阐述:
参照图4,本发明实施例提供了一种用户搜索意图的处理方法,该方法可应用于应用软件或者小程序的处理端,该处理端可与用户的终端设备进行交互。该方法还可以应用于服务器,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
以应用于服务器为例,如图4所示,本实施例包括以下步骤:
S41、采用命名实体识别模型从预先获取的第一数据中抽取第一实体。
在本申请实施例中,第一数据的具体内容与该数据所述的行业类型相关,例如,当数据所属行业类型为医疗类型,则第一数据包括医院名称、医院的疾病治疗领域、医院内的医生个人信息、治疗疾病对应的药品信息;当数据所属类型为零售类型,则第一数据包括零售商店名称、商店内商品类型、商品所属商店内区域、商品价格、商品介绍、商品售卖方式等。其中,第一数据可以从网页中直接获取,例如从医院的网页介绍平台上直接获取医院介绍等数据;也可以是开发人员在终端设备上输入相关信息后,服务器直接从该终端设备上获取,例如开发人员在电脑上输入超市A的介绍信息后,服务器从该电脑上获取超市A的介绍信息。实体是指特定类型的事物名称、符号。将从第一数据内抽取得到的实体作为第一实体。
服务器在得到第一数据后,调用命名实体识别模型从第一数据中抽取第一实体。具体地,命名实体识别模型包括NER(Named Entity Recognition)模型,NER模型用于将文本中的命名实体定位并分类为预先定义的类别,例如人名、地名、个人信息、时间表达式、数量、货币值、百分比等。
在NER模型执行具体操作之前,需要先通过语言表示模型进行训练。其中,语言表示模型包括BERT(Bidirectional Encoder Representations from Transformers)模型,BERT模型是一个自编码语言模型,其通过两个设定的任务来进行训练:第一个设定的任务是采用MaskLM的方式来训练语言模型,可以理解的是,MaskLM的方式是指在语言模型中输入一句话的时候,随机地选一些要预测的词语,然后用一个特殊符号来代替这些要预测的词语,之后让语言模型根据这些特殊符号来学习要预测的词语所在位置该填的词;第二个设定的任务是在双向语言模型的基础上额外增加了一个句子级别的连续性预测任务,即预测输入BERT模型的两个文本是否为连续的文本,以通过这个任务,使模型更好地学习连续文本片段之间的关系。
如图5所示,语言表示模型对NER模型进行训练的具体步骤包括:
S51、获取预设数量的训练文本。训练文本可以是预先编辑好的文本,或者是历史搜索记录的文本,例如“张三的介绍信息”、“竹林超市的简介”。
S52、采用语言表示模型分析训练文本的上下文信息,并根据训练文本的上下文信息确定训练文本中所有单词的词性。
在本申请实施例中,由于获取的训练文本的数量是有限的,将有限的训练文本进行数据扩充后,将扩充后的训练文本和之前的训练文本一起用于训练过程,以提高训练精度。例如基于已有的训练文本,通过数据扩充的方式得到大量的数据样本,如采用遮蔽的方式处理训练文本,比如训练文本为“树上有鸟”,将“鸟”遮蔽,则处理后的文本为“树上有*”,然后采用其他词填充符合这个文本的“*”,比如采用“虫”、“猴子”、“蛇”替换“*”,就可以得到“树上有虫”、“树上有猴子”、“树上有蛇”和“树上有虫”这四个训练样子,当对所有的训练样本采用同样的方式进行扩充时,就可以得到与已有的数据样本成倍数量的训练数据。或者根据待训练文本,预测符合这个待训练文本的上文语句或者下文语句,再对预测得到的语句进行词性标记。例如,已知训练样本为“树上有鸟”,预测这个训练样本的下文为“鸟的羽毛为白色”、“鸟准备飞向天空”,预测这个训练样本的上文为“森林公园里面”,由此可知,进行上下文预测后,一个训练文本可以得到多个训练文本。当对已知的所有训练文本进行同样的上下文预测时,则可以是训练文本的数量成倍的增加。
在对训练文本进行数量扩充后,将所有的训练文本输入语言表示模型内,语言表示模型即能对每个训练文本进行单词分解,并结合这个训练文本的上下文含义,确定每个单词的词性。例如“张三的介绍”这个训练文本,则可以分解为“张三”、“介绍”这个词语,结合“张三的介绍”的上下文意思可知,“张三”表示为人名,为名词;“介绍”表示个人信息,也是名词。
S53、根据每个单词的词性对每个单词进行词性标记。具体地,当确定所有训练样本内的单词词性后,根据每个单词的词性在相应的训练样本中对相应单词进行标记,以提高命名实体识别模型训练精度。
S54、确定所有单词的词性标记完成,根据完成词性标记的单词训练命名实体识别模型。具体地,本步骤是将带有词性标记的训练样本输入到命名实体识别模型内,使命名实体识别模型学习每个样本内每个单词词性和标记,从而在应用过程中,能够快速提取实时文本内具有相应词性标记的单词。
在完成命名实体识别模型训练后,采用训练后的命名实体识别模型从第一数据中抽取第一实体。具体地,如图6所示,抽取第一实体的过程包括以下步骤:
S61、确定第一数据的第一语言类型。其中,第一数据可以用不同的语言表示,例如中文、英语、法语等,不同语言的语法有所区别,若采用相同的方式对输入的文本数据进行处理,则会导致命名实体识别模型无法有效抽取准确的实体。因此,本实施例通过确定第一数据的语言类型,以提高后续步骤的准确度。
S62、根据第一语言类型确定第一数据的第一实体边界。
在本实施例中,采用与语言类型对应的方式来确定第一数据的边界。例如,当第一语言类型为英语类型,则根据一个句子中首字母为大写的语法特定确定实体边界。以“There are woods in the park.There are birds in the tree”为例,每个句子的收个单词的首字母均为大写,且第二大写子母的前面为“.”,由此可知,“.”的与第二大写子母之间为两个句子的边界。当第一语言类型为中文类型,则根据句子的标点符号和句子的上下文含义进行确定。以“老师老师,小花抢我的玩具。小明,你是个爱分享的好孩子。”为例,首先确定这个文本的标点符号,然后通过语言表示模型分析这个文本的上下文语义,再结合标点符号确定这个文本的实体边界为每个句子的“。”位置。
S63、根据第一实体边界分割第一数据,得到第一数据的所有第一单句。以“老师老师,小花抢我的玩具。小明,你是个爱分享的好孩子。”为例,根据确定的实体边界分割后,得到两个单句“老师老师,小花抢我的玩具”和“小明,你是个爱分享的好孩子”。
S64、抽取所有第一单句的第一实体。以单句“老师老师,小花抢我的玩具”作为第一单句为例,抽取到该单句的第一实体包括“老师”、“小花”、“我”和“玩具”。
本实施例通过对第一数据进行分解为若干个单句,然后再对单句进行实体抽取,从而扩宽第一数据的获取类型,以便于数据获取。
S42、将第一实体与预先构建的功能模块进行绑定。
在本实施例中,预先构建的功能模块是指能够直接被调用的程序模块,该程序模块内设有链接接口,该链接接口用于连接预设显示页面。这些链接接口被启动后,当前终端的显示页面可直接跳转到该链接接口对应的页面,以显示跳转后的页面内容。例如,当第一数据属于医疗类型时,且抽取到的第一实体是“张三”,则将“张三”分别与“医院”模块、“医生”模块、“相似病例”模块进行绑定。其中,“医院”模块下设有医院介绍内容的链接接口、“医生”模块下设有“张三”的治疗领域介绍的链接接口、“相似病例”模块下设有“张三”治疗过的较为典型的病例治疗过程介绍的链接接口。
S43、获取当前用户的终端设备的文本信息。
在本申请实施例中,终端设备可以为当前用户的手机、平板等移动设备。文本信息是指用户在终端设备的交互界面上输入的信息。具体地,终端设备可以通过多种方式获取用户的输入信息,例如文字、语音等方式。例如,用户需要搜索医生“李四”的信息,则用户可以在手机端的交互界面上通过文字方式输入“李四的介绍”,后台处理端即能接收“李四的介绍”这个文本信息,然后根据这个文字组成的文本信息执行后续操作步骤。用户也可以在手机端的交互界面上通过语音方式输入“李四的介绍”,后台处理端也能接收“李四的介绍”这个语音信息,但是,由于预先处理的命名实体识别模型对文字组成的文本信息的实体抽取结果更加准确,因此,本实施例需要这个语音信息转换成文字信息,以提高实体抽取结果的准确度。
具体地,如图7所示,当确定终端设备输入的文本信息为语音信息,通过以下步骤将语音信息转换为文字信息:
S71、去除语音信息的冗余信息。例如,语音信息中包括目标语音“李四的介绍。”和背景语音“正在过去呢”,则去除背景语音“正在过去呢”这个冗余信息,保留目标语音“李四的介绍”。然后再执行后续的操作。
S72、提取去除冗余信息后的语音信息中的语音特征参数,并将语音特征参数转换成矢量序列。
在本申请实施例中,在得到语音信息的所有特征参数后,依次将每一个所述语音特征参数转换成一个矢量,然后根据所有矢量构建矢量序列。以“李四的介绍”这个去除冗余信息后的语音信息为例,提取“李四的介绍”这些词的语音发音作为其语音特征参数,将这些特征参数转换成能够指向文字发音库的矢量,接着根据所有这些指向文字发音库的矢量构建一个该语音信息对应的矢量序列。
S73、根据矢量序列预测语音信息的文字信息。具体地,根据矢量序列中每个矢量对应发音的文字具体包括哪些,然后将确定的文字进行组合成语句,将与语音含义最接近的语句作为该语音的文字信息。
本实施例通过将语音信息转换为文字信息,从而提高命名实体识别模型抽取文本实体结果的准确度。
S44、采用命名实体识别模型从文本信息中抽取待匹配实体。
在本申请实施例中,在得到文本信息后,判断文本信息的句子类型,当文本信息的句子类型为单个句子类型,直接抽取文本信息中的实体作为第二实体,将该第二实体作为待匹配实体;当文本信息的句子类型为多个句子类型,则需要对文本信息进行分割。具体地,先获取文本信息语言类型作为第二语言类型,并根据第二语言类型确定文本信息的实体边界,将该实体边界作为第二实体边界,然后根据第二实体边界分割文本信息后,得到文本信息的所有单句,将文本信息的单句作为第二单句,接着提取每个第二单句的实体,并第二单句的实体作为待匹配实体,即将第三实体作为待匹配实体。以单句“张三的简介”作为第二单句为例,抽取到该单句的实体包括“张三”、“简介”。
S45、将待匹配实体与第一实体进行匹配。具体地,将待匹配实体与步骤S42中的第一实体进行匹配,当待匹配实体未匹配到第一实体,则不执行步骤S46或者将未搜索到对应信息的提示内容发送到当前用户的终端设备进行显示。当待匹配实体匹配到第一实体,则执行步骤S46。
S46、获取待匹配实体匹配成功的第一实体对应的功能模块作为待显示模块,并控制当前用户的终端设备显示待显示模块。例如,抽取到的待匹配实体为“张三”,匹配到的第一实体对应的功能模块包括“医院”、“医生”“经典病例”,则将“医院”、“医生”“经典病例”作为待显示模块,并控制终端设备显示“医院”、“医生”“经典病例”这些功能模块。
当用户在终端设备上点击相应的功能模块后,服务器通过获取对应功能模块的点击指令,然后根据该点击指令启动对应功能模块的链接接口,并根据链接接口跳转到该功能模块对应的预设显示页面。例如,当用户在终端设备上点击“医院”这个功能模块时,服务器即能接收“医院”的点击指令,然后启动“医院”对应的链接接口,以通过这个链接接口控制终端设备的交互界面跳转到链接接口对应的页面,以显示该页面下的医院介绍信息。
在一些实施例中,将上述意图搜索的处理方法应用于医疗领域时,具体操作过程如下:
首先建立离线实体词库。例如,基于当前医院的内部数据,如医院名称、医生的科室、医生名字、医生擅长的内容、标准疾病库、药品标题、药品品牌、商家等数据,以及外部的公开数据,如各医疗知识百科、电商系统商品等数据,采用基于BERT模型训练的NER模型抽取这些数据的实体。其中,抽取到的实体包括科室、疾病、症状、部位、医生名字、商品名称、品牌、厂商、店铺、医院名称。
然后基于上述抽取到的实体,将每个实体绑定对应的功能模块,比如医生名字这个实体绑定医生介绍这个功能模块,疾病实体绑定医生、医院、药品等功能模块。在完成实体与功能模块的绑定之后,还可以通过线下审核的方式,判断绑定关系是否符合实际情况,从而提高后续应用过程的准确度。
接着当用户在交互界面上输入搜索文本或搜索关键词时,识别该搜索文本或关键词的实体,然后将识别到的实体与离线实体库内的实体进行匹配,将匹配到的实体对应的功能模块在用户的交互界面上显示。在匹配过程中,若匹配到的对应的功能模块无法完全显示在交互界面,则可以根据所有对应的功能模块与识别到的实体的符合度确定当前显示的功能模块,从而使得交互界面显示的功能模块更符合用户的搜索意图。
参照图8,本发明实施例提供了一种用户搜索意图的处理系统,包括:
第一抽取模块810,用于采用命名实体识别模型从预先获取的第一数据中抽取第一实体;
绑定模块820,用于将第一实体与预先构建的功能模块进行绑定;
第一获取模块830,用于获取当前用户的终端设备的文本信息;
第二抽取模块840,用于采用命名实体识别模型从文本信息中抽取待匹配实体;
匹配模块850,用于将待匹配实体与第一实体进行匹配;
第二获取模块860,用于获取待匹配实体匹配成功的第一实体对应的功能模块作为待显示模块;
控制模块870,用于控制当前用户的终端设备显示所述待显示模块。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,在此不在赘述。
参照图9,本发明实施例提供了一种用户搜索意图的处理装置,包括:
至少一个存储器910,用于存储程序;
至少一个处理器920,用于加载所述程序以执行图4所示的用户搜索意图的处理方法。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,在此不在赘述。
在一些可选的实施例中,存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的基于边缘计算的终端隐私数据保护方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的用户搜索意图的处理方法,例如执行以上描述的图4中的方法步骤S41至S46、图5中的方法步骤S51至S54、图6中的方法步骤S61至S64、图7中的方法步骤S71至S73。
在一些可选的实施例中,上述处理装置可以为计算机设备,该计算机设备可以是服务器,可以是用户终端。本实施例以计算机设备是用户终端为例,具体如下:
如图10所示,计算机设备可以包括RF(Radio Frequency,射频)电路1010、包括有一个或一个以上计算机可读存储介质的存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、短距离无线传输模块1070、包括有一个或者一个以上处理核心的处理器1080、以及电源1090等部件。
RF电路1010可用于收发信息,信号的接收和发送,具体地,将基站的下行信息接收后,交由一个或者一个以上处理器1080处理;另外,将涉及上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code DivisionMultiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short MessagingService,短消息服务)等。
存储器1020可用于存储软件程序以及模块。处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音录制功能、图像查看功能等)等;存储数据区可存储根据设备的使用所创建的数据(比如音频数据、文本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1020还可以包括存储器控制器,以提供处理器1080和输入单元1030对存储器1020的访问。
输入单元1030可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1030可包括触敏表面1031以及其他输入设备1032。触敏表面1031,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1031上或在触敏表面1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。除了触敏表面1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及控制的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步的,触敏表面1031可覆盖在显示面板1041之上,当触敏表面1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。
以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行图4所示的用户搜索意图的处理方法。例如,执行上述实施例中的用户搜索意图的处理方法,例如执行以上描述的图4中的方法步骤S41至S46、图5中的方法步骤S51至S54、图6中的方法步骤S61至S64、图7中的方法步骤S71至S73。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (11)
1.一种用户搜索意图的处理方法,其特征在于,包括以下步骤:
采用命名实体识别模型从预先获取的第一数据中抽取第一实体;
将所述第一实体与预先构建的功能模块进行绑定;
获取当前用户的终端设备的文本信息;
采用所述命名实体识别模型从所述文本信息中抽取待匹配实体;
将所述待匹配实体与所述第一实体进行匹配;
获取所述待匹配实体匹配成功的所述第一实体对应的功能模块作为待显示模块;
控制所述当前用户的终端设备显示所述待显示模块。
2.根据权利要求1所述的一种用户搜索意图的处理方法,其特征在于,所述命名实体识别模型预先通过语言表示模型进行训练;所述命名实体识别模型的训练步骤,包括:
获取预设数量的训练文本;
采用所述语言表示模型分析所述训练文本的上下文信息;
根据所述训练文本的上下文信息确定所述训练文本中所有单词的词性;
根据每个单词的所述词性对每个单词进行词性标记;
确定所有单词的词性标记完成,根据完成词性标记的所述单词训练所述命名实体识别模型。
3.根据权利要求1所述的一种用户搜索意图的处理方法,其特征在于,所述采用命名实体识别模型从预先获取的第一数据中抽取第一实体,包括:
确定所述第一数据的第一语言类型;
根据所述第一语言类型确定所述第一数据的第一实体边界;
根据所述第一实体边界分割所述第一数据,得到所述第一数据的所有第一单句;
抽取所有所述第一单句的第一实体。
4.根据权利要求1所述的一种用户搜索意图的处理方法,其特征在于,所述预先构建的功能模块设有链接接口,所述链接接口用于连接预设显示页面。
5.根据权利要求1所述的一种用户搜索意图的处理方法,其特征在于,在执行所述获取当前用户的终端设备的文本信息步骤后,所述处理方法还包括以下步骤:
确定所述文本信息为语音信息,去除所述语音信息的冗余信息;
提取去除冗余信息后的所述语音信息中的语音特征参数;
将所述语音特征参数转换成矢量序列;
根据所述矢量序列预测所述语音信息的文字信息。
6.根据权利要求5所述的一种用户搜索意图的处理方法,其特征在于,所述将所述语音特征参数转换成矢量序列,包括:
依次将每一个所述语音特征参数转换成矢量;
根据所有所述矢量构建矢量序列。
7.根据权利要求1所述的一种用户搜索意图的处理方法,其特征在于,所述采用所述命名实体识别模型从所述文本信息中抽取待匹配实体,包括:
当所述文本信息的句子类型为单个句子类型,抽取所述文本信息中的第二实体作为待匹配实体;
或者,当所述文本信息的句子类型为多个句子类型,获取所述文本信息的第二语言类型;
根据所述第二语言类型确定所述文本信息的第二实体边界;
根据所述第二实体边界分割所述文本信息,得到所述文本信息的所有第二单句;
提取每个所述第二单句的第三实体作为待匹配实体。
8.根据权利要求4所述的一种用户搜索意图的处理方法,其特征在于,所述处理方法还包括以下步骤:
获取所述终端设备上传的所述待显示模块的点击指令;
根据所述点击指令启动所述链接接口;
根据所述链接接口调用所述待显示模块对应的预设显示页面。
9.一种用户搜索意图的处理系统,其特征在于,包括:
第一抽取模块,用于采用命名实体识别模型从预先获取的第一数据中抽取第一实体;
绑定模块,用于将所述第一实体与预先构建的功能模块进行绑定;
第一获取模块,用于获取当前用户的终端设备的文本信息;
第二抽取模块,用于采用所述命名实体识别模型从所述文本信息中抽取待匹配实体;
匹配模块,用于将所述待匹配实体与所述第一实体进行匹配;
第二获取模块,用于获取所述待匹配实体匹配成功的所述第一实体对应的功能模块作为待显示模块;
控制模块,用于控制所述当前用户的终端设备显示所述待显示模块。
10.一种用户搜索意图的处理装置,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于加载所述程序以执行如权利要求1至8中任意一项所述的用户搜索意图的处理方法。
11.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至8中任意一项所述的用户搜索意图的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017358.1A CN113722467B (zh) | 2021-08-31 | 用户搜索意图的处理方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017358.1A CN113722467B (zh) | 2021-08-31 | 用户搜索意图的处理方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722467A true CN113722467A (zh) | 2021-11-30 |
CN113722467B CN113722467B (zh) | 2024-05-17 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751290A (zh) * | 2009-10-23 | 2010-06-23 | 金蝶软件(中国)有限公司 | 一种调用功能模块的方法、装置及erp系统 |
CN107133259A (zh) * | 2017-03-22 | 2017-09-05 | 北京晓数聚传媒科技有限公司 | 一种搜索方法和装置 |
CN107506343A (zh) * | 2017-07-27 | 2017-12-22 | 北京金堤科技有限公司 | 一种信息编辑的处理方法及平台 |
CN108897753A (zh) * | 2018-05-07 | 2018-11-27 | 深圳壹账通智能科技有限公司 | 应用功能搜索方法、装置、计算机设备和存储介质 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
US20200242302A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Intention identification method, intention identification apparatus, and computer-readable recording medium |
CN112380853A (zh) * | 2020-11-16 | 2021-02-19 | 中国平安人寿保险股份有限公司 | 业务场景交互方法、装置、终端设备及存储介质 |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751290A (zh) * | 2009-10-23 | 2010-06-23 | 金蝶软件(中国)有限公司 | 一种调用功能模块的方法、装置及erp系统 |
CN107133259A (zh) * | 2017-03-22 | 2017-09-05 | 北京晓数聚传媒科技有限公司 | 一种搜索方法和装置 |
CN107506343A (zh) * | 2017-07-27 | 2017-12-22 | 北京金堤科技有限公司 | 一种信息编辑的处理方法及平台 |
CN108897753A (zh) * | 2018-05-07 | 2018-11-27 | 深圳壹账通智能科技有限公司 | 应用功能搜索方法、装置、计算机设备和存储介质 |
US20200242302A1 (en) * | 2019-01-29 | 2020-07-30 | Ricoh Company, Ltd. | Intention identification method, intention identification apparatus, and computer-readable recording medium |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN112380853A (zh) * | 2020-11-16 | 2021-02-19 | 中国平安人寿保险股份有限公司 | 业务场景交互方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10733197B2 (en) | Method and apparatus for providing information based on artificial intelligence | |
US11669579B2 (en) | Method and apparatus for providing search results | |
US20200301954A1 (en) | Reply information obtaining method and apparatus | |
CN107832433B (zh) | 基于对话交互的信息推荐方法、装置、服务器和存储介质 | |
CN110134931B (zh) | 媒介标题生成方法、装置、电子设备及可读介质 | |
US10846475B2 (en) | Emoji input method and device thereof | |
CN105931644A (zh) | 一种语音识别方法及移动终端 | |
WO2019153685A1 (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
US20150058711A1 (en) | Presenting fixed format documents in reflowed format | |
CN103914539A (zh) | 信息查询方法和装置 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN116501960B (zh) | 内容检索方法、装置、设备及介质 | |
CN111737620A (zh) | 一种页面访问方法、装置、设备及介质 | |
US20240104154A1 (en) | Ranking of recall data | |
CN111858880A (zh) | 获取查询结果的方法、装置、电子设备和可读存储介质 | |
CN107273424A (zh) | 应用于翻译服务的显示处理方法和装置 | |
CN113722467B (zh) | 用户搜索意图的处理方法、系统、装置和存储介质 | |
CN113722467A (zh) | 用户搜索意图的处理方法、系统、装置和存储介质 | |
CN111475129A (zh) | 一种语音识别候选同音词的展示方法及设备 | |
US11714599B2 (en) | Method of browsing a resource through voice interaction | |
CN113535970A (zh) | 信息处理方法和装置、电子设备以及计算机可读存储介质 | |
KR20220096808A (ko) | 음성 기반 제품사용설명서 안내 서비스 제공 방법 | |
CN112380871A (zh) | 语义识别方法、设备及介质 | |
US20240038223A1 (en) | Speech recognition method and apparatus | |
US20220238107A1 (en) | Device and method for providing recommended sentence related to utterance input of user |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |