CN114676319A - 获取商家名称的方法、装置及可读存储介质 - Google Patents
获取商家名称的方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN114676319A CN114676319A CN202210195234.0A CN202210195234A CN114676319A CN 114676319 A CN114676319 A CN 114676319A CN 202210195234 A CN202210195234 A CN 202210195234A CN 114676319 A CN114676319 A CN 114676319A
- Authority
- CN
- China
- Prior art keywords
- merchant
- merchant information
- name
- text
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 112
- 238000010586 diagram Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 16
- 238000013507 mapping Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种获取商家名称的方法、装置及可读存储介质,该方法包括:获取第一商家信息文本;根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签;其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息;根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。
Description
技术领域
本发明实施例涉及信息获取技术领域,更具体地,涉及一种获取商家名称的方法、装置及可读存储介质。
背景技术
信息检索技术的出现是网络发展史上的里程碑,给网络用户带来了极大的便利。用户只要输入检索文本,信息检索系统就会按照一定的排序规则,为用户快速地返回与该检索文本相关联的所有网页。
在用户需要获知商家信息,比如商家电话、商家地址等时,可以将用户提供的检索文本输入信息检索系统,信息检索系统进而根据该检索文本得到相应的商家名称,从而向用户返回相应的商家信息。
但是,由于用户描述商家名称时很大程度上会存在缺失情况,比如仅提供商家名称的简称、省略商家名称的开头信息、记不清商家全名等,使得信息检索系统无法准确捕获商家名称,而无法有效反馈用户所需信息。
发明内容
本发明实施例的一个目的是提供一种获取商家名称的新的技术方案。
根据本发明的第一方面,提供了一种获取商家名称的方法,包括:获取第一商家信息文本;根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签;其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息;根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。
可选地,所述获取第一商家信息文本,包括:获取用户通过设定接口输入的第一商家信息提问内容;根据所述第一商家信息提问内容,获得所述第一商家信息文本;其中,所述第二商家信息文本为根据用户通过所述设定接口输入的第二商家信息提问内容获得的商家信息文本。
可选地,所述设定接口包括商家信息提问语音输入接口;所述根据所述第一商家信息提问内容,获得所述第一商家信息文本,包括:对所述第一商家信息提问内容进行音频转写文本处理,获得所述第一商家信息文本。
可选地,在所述获取对应所述第一商家信息文本的目标商家名称之后,所述方法还包括:从设定数据库存储的对应所述目标商家名称的各个商家信息中,获取对应所述第一商家信息文本的目标商家信息;将所述目标商家信息发送给输入所述第一商家信息提问内容的用户。
可选地,所述目标模型通过以下步骤得到:对于每一个所述第二商家信息文本,根据所述第二商家信息文本和所述信息检索系统,获得对应所述第二商家信息文本的初始标签;在外部执行对所述初始标签进行修正操作的情况下,根据所述初始标签和所述修正操作的操作内容,获得所述第二商家信息文本对应的第二标签;在外部没有执行所述修正操作的情况下,以所述初始标签作为所述第二商家信息文本对应的第二标签;根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型。
可选地,所述根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型,包括:根据设定数据库中存储的各个商家名称进行降噪处理,获得所述多个第二商家信息文本中的多个第三商家信息文本,其中,所述设定数据库中存储有与任一所述第三商家信息文本对应的标签相匹配的商家名称;对所述多个第三商家信息文本和每一所述第三商家信息文本对应的标签进行形式转化处理,以转化为对应所述设定模型的形式,并转化处理结果作为训练语料;根据所述训练语料对所述设定模型进行模型训练处理,获得所述目标模型。
可选地,所述根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称,包括:根据所述信息检索系统,获取设定数据库中存储的对应所述第一标签的各个第一商家名称,以及每一所述第一商家名称的得分,所述得分用于反映所述第一商家名称与所述第一标签间的关联度;以获取到的具有最高得分的所述第一商家名称,作为所述目标商家名称。
根据本发明的第二方面,还提供了一种获取商家名称的装置,包括:第一获取模块,用于获取第一商家信息文本;第二获取模块,用于根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签;其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息;以及,第三获取模块,用于根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。
根据本发明的第三方面,还提供了一种获取商家名称的装置,包括存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序,以实现根据本发明第一方面所述的方法。
根据本发明的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序在被处理器执行时实现根据本发明的第一方面所述的方法。
本发明实施例的一个有益效果在于,获取第一商家信息文本;根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签;其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息;根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。可见,本实施例在获取到商家信息文本时,先基于根据多个商家信息文本及其用于指示相应商家名称的标签训练得到的模型,来确定该商家信息文本的标签,再将该标签输入信息检索系统来获得相应商家名称。如此,即使是在用户描述商家名称有缺失的情况下获得的商家信息文本,基于模型输出的用于指示相应商家名称的相应标签,并结合信息检索系统,仍可准确捕获到商家名称。进而基于获得的准确商家名称,可为有效反馈用户所需信息的实现提供支持。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明实施例的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明实施例的原理。
图1是能够实施根据一个实施例的获取商家名称的方法的电子设备组成结构的示意图;
图2是根据一个实施例的获取商家名称的方法的流程示意图;
图3是根据另一个实施例的获取商家名称的方法的流程示意图;
图4是根据一个实施例的获取商家名称的装置的方框原理图;
图5是根据一个实施例的获取商家名称的装置的硬件结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是可用于实现本公开实施例的电子设备1000的结构示意图。
该电子设备1000可以是智能手机、便携式电脑、台式计算机、平板电脑、服务器等,在此不做限定。
该电子设备1000可以包括但不限于处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、图形处理器GPU、微处理器MCU等,用于执行计算机程序,该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口、并行接口等。通信装置1400例如能够利用光纤或电缆进行有线通信,或者进行无线通信,具体地可以包括WiFi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。扬声器1700用于输出音频信号。麦克风1800用于采集音频信号。
应用于本公开实施例中,电子设备1000的存储器1200用于存储计算机程序,该计算机程序用于控制所述处理器1100进行操作以实现根据本公开实施例的方法。技术人员可以根据本公开所公开方案设计该计算机程序。该计算机程序如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。该电子设备1000可以安装有智能操作系统(例如Windows、Linux、安卓、IOS等系统)和应用软件。
本领域技术人员应当理解,尽管在图1中示出了电子设备1000的多个装置,但是,本公开实施例的电子设备1000可以仅涉及其中的部分装置,例如,只涉及处理器1100和存储器1200等。
下面,参照附图描述根据本发明的各个实施例和例子。
<方法实施例>
图2是根据一个实施例的获取商家名称的方法的流程示意图。本实施例的实施主体例如为图1中的电子设备1000。
如图2所示,本实施例的获取商家名称的方法可以包括如下步骤S210~S230:
步骤S210,获取第一商家信息文本。
在用户需要获取商家信息、评价商家等情况下,用户可以根据自身对商家名称(即商家的标准全称)的了解,向电子设备提供商家名称相应信息。比如,用户需要查询某一商家的商家地址时,电子设备获得的商家信息文本可以为“查询xxx地址”,该“xxx”为该商家名称的口语化简称叫法。
电子设备可以根据用户提供的商家名称相应信息,获得相应的商家信息文本,以便于后续可以根据该商家信息文本,准确获得用户所想要表达的商家名称。
可行地,电子设备基于获得的商家名称,可以进行商家名称的大数据统计、向用户反馈商家信息等操作。
步骤S220,根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签。
其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息。
考虑到用户在提供商家信息文本时,通常存在商家名称描述缺失的情况,比如用户仅提供了商家名称的简称、省略公司开头信息等,故而商家信息文本通常不能指示用户所想要表达的商家名称。如此,若直接将该商家信息文本输入信息检索系统,有可能难以准确获得用户所想要表达的商家名称。
为了能够准确获得用户所想要表达的商家名称,本实施例将第一商家信息文本输入训练好的模型中,以获得模型输出的该第一商家信息文本对应的第一标签。
其中,由于目标模型是根据多个商家信息文本及其标签训练得到的,且训练模型所用的标签可指示相应商家信息文本对应的商家名称,故而目标模型输出的第一标签同样可以指示第一商家信息文本对应的商家名称。
如此,由于第一标签指示了第一商家信息文本对应的商家名称,则后续可以将该第一标签输入信息检索系统中,通常即可准确获得该商家名称。
可行地,用于训练模型的各个商家信息文本可以由人工编写得到,也可以为历史商家信息文本,即第一商家信息文本和各个第二商家信息文本的来源保持一致。与人工编写文本相比,历史文本和当前测试文本的文本特点一致性通常更高,故而有助于当前测试文本对应标签的准确确定。
基于上述内容,在本发明一个实施例中,所述获取第一商家信息文本,可以包括以下步骤S2101~步骤S2102:
步骤S2101,获取用户通过设定接口输入的第一商家信息提问内容。
可行地,用户可以通过设定接口来提供商家信息文本。对应地,电子设备可以通过该设定接口获得用户提供的商家信息文本。
示例性地,该设定接口可以为文本输入接口、语音输入接口等。如此,电子设备获得的商家信息提问内容可以为文本形式的信息,或者音频形式的信息。
步骤S2102,根据所述第一商家信息提问内容,获得所述第一商家信息文本。其中,所述第二商家信息文本为根据用户通过所述设定接口输入的第二商家信息提问内容获得的商家信息文本。
本实施例中,令第二商家信息文本和第一商家信息文本的来源一致,使得基于第二商家信息文本训练得到的模型,可以准确确定第一商家信息文本的标签。
对于用户通过文本输入商家信息提问内容的情况,用户输入的是文本内容。比如用户可以通过设定的商家信息咨询文本输入框,来提出商家信息提问内容。
在此情况下,可以将用户输入的第一商家信息提问内容作为所述第一商家信息文本,或者经文本预处理后得到所述第一商家信息文本。
对于用户通过语音输入商家信息提问内容的情况,用户输入的是音频内容。比如用户可以通过拨打设定的商家信息咨询热线,来提出商家信息提问内容。
基于此,在本发明一个实施例中,所述设定接口包括商家信息提问语音输入接口。对应地,所述步骤S2101,根据所述第一商家信息提问内容,获得所述第一商家信息文本,包括:对所述第一商家信息提问内容进行音频转写文本处理,获得所述第一商家信息文本。
本实施例中,对于用户通过语音输入接口输入的内容,电子设备可执行音频转写处理,以将音频内容转换为相应的文本内容,以便于电子设备根据该文本内容获得用户所想要表达的商家名称。
可行地,可以通过ASR系统(或称语音转写系统)来获取实时转写的通话文本。其中,ASR(Automatic Speech Recognition,自动语音识别技术)是一种将人的语音转换为文本的技术。
在本发明一个实施例中,所述目标模型通过以下步骤A1~步骤A4得到:
步骤A1,对于每一个所述第二商家信息文本,根据所述第二商家信息文本和所述信息检索系统,获得对应所述第二商家信息文本的初始标签。
该步骤中,将第二商家信息文本输入信息检索系统,来获得第二商家信息文本的初始标签。
在可行的实现方式中,信息检索系统可以对商家信息文本进行拆词、过滤无效信息、保留有效特征词等处理,以获得商家信息文本的初始标签。
可行地,可以在后台程序中搭建停用词表和特征词表,以便据此过滤掉大量非有效数据以及获取有效数据信息,确保初始标签的准确获取。
可行地,该信息检索系统可以为Lunce检索匹配系统。
由于模型训练所用的第二商家信息文本的数量较多,基于信息检索系统来自动获取各个第二商家信息文本的标签,可以保证标签获取效率,提高模型训练效率。
由于第二商家信息文本可能是在用户对商家名称描述缺失的情况获得的,故而为提高模型训练效果,以保证后续可以准确获得第一标签,则可以进行人工抽样处理,以对上述初始标签进行复核、修正,以使经人工抽样处理后得到的标签可以准确指示用户所想要表达的商家名称。
步骤A2,在外部执行对所述初始标签进行修正操作的情况下,根据所述初始标签和所述修正操作的操作内容,获得所述第二商家信息文本对应的第二标签。
步骤A3,在外部没有执行所述修正操作的情况下,以所述初始标签作为所述第二商家信息文本对应的第二标签。
对于任一第二商家信息文本,模型训练人员通过查阅其文本内容,可以确定是否需要对其初始标签进行修正。若初始标签能够准确指示用户所想要表达的商家名称,可以无需修正,反之需要修正。基于人工抽样处理,可以获得各个第二商家信息文本对应的第二标签。
步骤A4,根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型。
本实施例通过将第二商家信息文本输入信息检索系统来获得初始标签,再基于人工抽样处理获得用于指示商家信息的第二标签,然后基于多个第二商家信息文本及其第二标签进行模型训练。如此,不仅可以保证模型训练效率,还可保证模型训练效果。
可行地,该设定模型可以为序列标注模型,比如具体可以为BiLSTM-CRF序列模型。
对于通过BiLSTM-CRF序列模型对商家信息文本的标签进行预测的方式,可以把文本数据转化为定长的文本序列后,放入BiLSTM-CRF网络结构中预测,具体预测步骤可以包括以下内容:
(1)在输入层(词嵌入层)输入定长n的文本序列c,每个词用向量xi表示,每个词嵌入的维度k。句子表示可以为xi:n=x1⊕x2⊕:::⊕xn,也就是说最终输入层输入的是文本序列c中各个词汇对应的分布式表示xi,即词向量。其中词向量可以采用预训练word2vec做输入层的输入,并在模型训练过程中不再微调。
(2)对词向量的序列进行BiLSTM层处理,输出的是文本序列c中每一个标签的预测分值。比如对于文本序列c,BiLSTM层输出1.5(B-person),0.9(I-person),0.1(other)。
(3)由于BiLSTM层输出标签结果不能保证正确,比如可能存在标记偏置问题。通过CRF层增加一些约束规则,可以降低预测错误的概率。其中,在训练模型前,可以采用随机初始化矩阵,CRF层随着训练迭代次数增加,不断学习约束,使其越来越合理。
在本发明一个实施例中,所述步骤A4,根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型,可以包括以下步骤A41~步骤A43:
步骤A41,根据设定数据库中存储的各个商家名称进行降噪处理,获得所述多个第二商家信息文本中的多个第三商家信息文本,其中,所述设定数据库中存储有与任一所述第三商家信息文本对应的标签相匹配的商家名称。
该步骤中,结合数据库中存储的各个商家名称,对获得的第二标签进行校验,以校验第二标签的有效性。若数据库中存储有与该第二标签相匹配的商家名称,则可以认为该第二标签有效。反之可以认为该第二标签无效或低效,并剔除掉该第二标签及相应第二商家信息文本,以避免这部分数据对模型训练效果造成影响,进而影响后续对第一标签的准确获取。
在可行的一种实现方式中,所述进行降噪处理,包括:采用条件匹配方法,将第三商家信息文本对应的标签这一人工修复标注特征与数据库中存储的商家名称进行匹配,如果无法匹配到商家名称,则跳过该条文本。
其中,可以采用“BIO”(比如B对应0,I对应1,O对应2)标注体系,对商家名称标注特征词及其他词标识。比如,可以根据提取的标签对原有的商家信息文本进行标注实体处理,非实体可以标注other。根据标注结果,可以剔除标记的错误数据。
可见,本实施例通过执行降噪处理,可以剔除掉标记错误数据,避免基于这部分数据来训练模型时,对模型训练效果造成不良影响。
步骤A42,对所述多个第三商家信息文本和每一所述第三商家信息文本对应的标签进行形式转化处理,以转化为对应所述设定模型的形式,并转化处理结果作为训练语料。
在完成降噪处理之后,可以将各个第三商家信息文本及相应标签均转化为对应设定模型的形式,并以形式转化后的内容作为训练语料来训练模型。
比如,设定模型为序列标注模型时,可以将各个第三商家信息文本及相应标签均转化为序列标注文本规定形式。
步骤A43,根据所述训练语料对所述设定模型进行模型训练处理,获得所述目标模型。
该步骤中,基于获得的训练语料进行模型训练,即可获得目标模型。在模型训练好之后,可基于训练好的模型,来准确确定实时获得的各个商家信息文本的标签。
在可行的一种实现方式中,所述进行模型训练处理包括:对商家信息文本的字映射成索引表示,以构建字-索引映射表。基于同样的构建方式,对商家信息文本的标签也构建映射表。然后从预训练的字向量模型中读取出字向量,作为初始化值输入到模型中。此外,还可通过映射表把文本与实体标签数值化为索引表示,并填充为定长。最后提交给序列标注模型进行模型训练。
基于上述内容,目标模型的生成可以包括以下步骤(1)~(3):
(1)训练用的语料读入内存。
通过计算商家信息文本的每个字在文档中出现的词频,过滤掉词频小于最低阈值及高于最高阈值的字,然后对剩余、不重复字映射成索引表示。具体可以加上'<PAD>','<UNK>','<NUM>',分别表示填充字符、未知字符、数字字符,一起构成字-索引映射表。此外,标签也有标签-索引映射表。
(2)全部文本存储为列表形式,设置过滤最小字频与最高字频、上下文选取窗口大小,然后采用word2vec模型训练文本,得到字向量模型。从字向量模型中读取字-索引映射表相对应的字向量,作为模型初始值。
步骤(2)中,基于word2vec模型获得词向量,主要可以采用CBOW、连续词袋模型。其主要思想是从输入的已知上下文信息,来实现当前单词的预测。该模型主要可以由三层神经网络构成(输入层,隐藏层,输出层),具体实现步骤如下:
(2.1)假设词向量空间dim为V,上下文词个数为C的情况,输入one-hot(独热码)的上下文。对于全部文档的字做编号,每个文档进行特征向量提取,文档中出现该字则标记为1,否则标记为0。
(2.2)所有one-hot分别乘以共享输入权重矩阵W。W为V*N矩阵,N为设定的数。然后得到的向量相加求平均作为隐层向量,1*N。
(2.3)乘以输出权重矩阵W’,即{N*V},获得想要的词向量矩阵。
(3)通过映射表把每个文档单词数值化。此外对于每个文档长度不一致情况,可以进行定长处理,长度长于阈值进行截取,长度短于阈值采用<PAD>扩充。此外标签同样处理为数值化。并把映射表及词向量保存到配置文件中。
步骤S230,根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。
在获得第一标签后,可以将第一标签输入信息检索系统,以检索得到相应的商家名称。
在本发明一个实施例中,所述步骤S230,根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称,可以包括以下步骤S2301~步骤S2302:
步骤S2301,根据所述信息检索系统,获取设定数据库中存储的对应所述第一标签的各个第一商家名称,以及每一所述第一商家名称的得分,所述得分用于反映所述第一商家名称与所述第一标签间的关联度。
由于第一标签包括用于指示商家名称的信息,当该第一标签通常并不为商家名称自身,所以根据第一标签获取相应商家名称时,可以获得不止一个商家名称。
不同商家名称的特征信息可以有所不同,该特征信息比如地区、公司类型。举例来说,数据库中可以存储有“AB有限责任公司”和“CB股份有限公司”,B为商家名称的简称,A、C均为地名。可行地,第一标签可以包括商家名称的一个或多个特征信息。
该步骤中,根据第一标签,可以遍历数据库中存储的各个商家名称,以获得与该第一标签相关联的各个商家名称。以及根据第一标签与各个相关联商家名称间的关联度,可以获得相应的得分。其中,关联度可以与得分呈正相关,得分越高,关联度越高。
步骤S2302,以获取到的具有最高得分的所述第一商家名称,作为所述目标商家名称。
通常情况下,由于第一标签能够准确指示用户所想要表达的商家名称,故而与第一标签关联度最高的商家名称为用户所想要表达的商家名称的可能性相对最大,故而可以选取最高得分对应的商家名称。
本实施例中,结合标签与商家名称间的关联度来确定商家名称,可以实现商家名称的准确获取。
由上可知,本发明实施例提供了一种获取商家名称的方法,该方法获取第一商家信息文本;根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签;其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息;根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。可见,本实施例在获取到商家信息文本时,先基于根据多个商家信息文本及其用于指示相应商家名称的标签训练得到的模型,来确定该商家信息文本的标签,再将该标签输入信息检索系统来获得相应商家名称。如此,即使是在用户描述商家名称有缺失的情况下获得的商家信息文本,基于模型输出的用于指示相应商家名称的相应标签,并结合信息检索系统,仍可准确捕获到商家名称。进而基于获得的准确商家名称,可为有效反馈用户所需信息的实现提供支持。
可行地,基于获得的商家名称,可以进行商家名称的大数据统计、向用户反馈商家信息等操作。
基于此,在本发明一个实施例中,在所述获取对应所述第一商家信息文本的目标商家名称之后,所述方法还可以包括:从设定数据库存储的对应所述目标商家名称的各个商家信息中,获取对应所述第一商家信息文本的目标商家信息;将所述目标商家信息发送给输入所述第一商家信息提问内容的用户。
可行地,数据库中可以存储有每一商家名称的各个商家信息,比如地址、联系电话等。
对于根据用户输入的商家信息提问内容获得的商家信息文本,在获得该商家信息文本对应的商家名称之后,可以对该商家信息文本进行语义分析,并基于分析结果匹配到该商家名称的相应商家信息,并反馈给用户。
比如,用户需要了解某一商家的地址时,则可以匹配到相应商家名称的预设地址信息,并向用户返回该预设地址信息。
可见,本实施例基于深度学习方法可以提高获取商家信息的准确率,改善现有技术中用户查询商家信息不正确的情况。
<例子>
图3给出了根据一实施例的获取商家名称的方法的流程示意图。如图3所示,该实施例的获取商家名称的方法可以包括以下步骤S301~步骤S314:
步骤S301,获取用户通过商家信息提问语音输入接口输入的第二商家信息提问内容。
步骤S302,对所述第二商家信息提问内容进行音频转写文本处理,获得第二商家信息文本。
步骤S303,根据所述第二商家信息文本和设定的信息检索系统,获得对应所述第二商家信息文本的初始标签。
步骤S304,在外部执行对所述初始标签进行修正操作的情况下,根据所述初始标签和所述修正操作的操作内容,获得所述第二商家信息文本对应的第二标签,以及在外部没有执行所述修正操作的情况下,以所述初始标签作为所述第二商家信息文本对应的第二标签,其中,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息。
步骤S305,对于多个所述第二商家信息文本,根据设定数据库中存储的各个商家名称进行降噪处理,获得所述多个第二商家信息文本中的多个第三商家信息文本,其中,所述设定数据库中存储有与任一所述第三商家信息文本对应的标签相匹配的商家名称。
步骤S306,对所述多个第三商家信息文本和每一所述第三商家信息文本对应的标签进行形式转化处理,以转化为对应设定模型的形式,并转化处理结果作为训练语料。
步骤S307,根据所述训练语料对所述设定模型进行模型训练处理,获得目标模型。
步骤S308,获取用户通过所述商家信息提问语音输入接口输入的第一商家信息提问内容。
步骤S309,对所述第一商家信息提问内容进行音频转写文本处理,获得第一商家信息文本。
步骤S310,根据所述目标模型,获取对应所述第一商家信息文本的第一标签。
步骤S311,根据所述信息检索系统,获取设定数据库中存储的对应所述第一标签的各个第一商家名称,以及每一所述第一商家名称的得分,所述得分用于反映所述第一商家名称与所述第一标签间的关联度。
步骤S312,以获取到的具有最高得分的所述第一商家名称,作为所述目标商家名称。
步骤S313,从设定数据库存储的对应所述目标商家名称的各个商家信息中,获取对应所述第一商家信息文本的目标商家信息。
步骤S314,将所述目标商家信息发送给输入所述第一商家信息提问内容的用户。
<设备实施例>
图4是根据一个实施例的获取商家名称的装置400的原理框图。如图4所示,该获取商家名称的装置400可以包括第一获取模块410、第二获取模块420和第三获取模块430。
该获取商家名称的装置400可以是图1所示的电子设备1000。
其中,所述第一获取模块410用于获取第一商家信息文本。所述第二获取模块420用于根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签。其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息。所述第三获取模块430用于根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。
可见,本实施例在获取到商家信息文本时,先基于根据多个商家信息文本及其用于指示相应商家名称的标签训练得到的模型,来确定该商家信息文本的标签,再将该标签输入信息检索系统来获得相应商家名称。如此,即使是在用户描述商家名称有缺失的情况下获得的商家信息文本,基于模型输出的用于指示相应商家名称的相应标签,并结合信息检索系统,仍可准确捕获到商家名称。进而基于获得的准确商家名称,可为有效反馈用户所需信息的实现提供支持。
在本发明一个实施例中,所述第一获取模块410用于获取用户通过设定接口输入的第一商家信息提问内容;根据所述第一商家信息提问内容,获得所述第一商家信息文本;其中,所述第二商家信息文本为根据用户通过所述设定接口输入的第二商家信息提问内容获得的商家信息文本。
在本发明一个实施例中,所述设定接口包括商家信息提问语音输入接口;所述第一获取模块410用于对所述第一商家信息提问内容进行音频转写文本处理,获得所述第一商家信息文本。
在本发明一个实施例中,该获取商家名称的装置400还可以包括:用于从设定数据库存储的对应所述目标商家名称的各个商家信息中,获取对应所述第一商家信息文本的目标商家信息的模块;以及,用于将所述目标商家信息发送给输入所述第一商家信息提问内容的用户的模块。
在本发明一个实施例中,所述目标模型通过以下步骤得到:对于每一个所述第二商家信息文本,根据所述第二商家信息文本和所述信息检索系统,获得对应所述第二商家信息文本的初始标签;在外部执行对所述初始标签进行修正操作的情况下,根据所述初始标签和所述修正操作的操作内容,获得所述第二商家信息文本对应的第二标签;在外部没有执行所述修正操作的情况下,以所述初始标签作为所述第二商家信息文本对应的第二标签;根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型。
在本发明一个实施例中,所述根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型,包括:根据设定数据库中存储的各个商家名称进行降噪处理,获得所述多个第二商家信息文本中的多个第三商家信息文本,其中,所述设定数据库中存储有与任一所述第三商家信息文本对应的标签相匹配的商家名称;对所述多个第三商家信息文本和每一所述第三商家信息文本对应的标签进行形式转化处理,以转化为对应所述设定模型的形式,并转化处理结果作为训练语料;根据所述训练语料对所述设定模型进行模型训练处理,获得所述目标模型。
在本发明一个实施例中,所述第三获取模块430用于根据所述信息检索系统,获取设定数据库中存储的对应所述第一标签的各个第一商家名称,以及每一所述第一商家名称的得分,所述得分用于反映所述第一商家名称与所述第一标签间的关联度;以获取到的具有最高得分的所述第一商家名称,作为所述目标商家名称。
图5是根据另一个实施例的获取商家名称的装置500的硬件结构示意图。
如图5所示,该获取商家名称的装置500包括处理器510和存储器520,该存储器520用于存储可执行的计算机程序,该处理器510用于根据该计算机程序的控制,执行如以上任意方法实施例的方法。
该获取商家名称的装置500可以是图1所示的电子设备1000。
以上获取商家名称的装置500的各模块可以由本实施例中的处理器510执行存储器520存储的计算机程序实现,也可以通过其他电路结构实现,在此不做限定。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种获取商家名称的方法,其特征在于,包括:
获取第一商家信息文本;
根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签;
其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息;
根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。
2.根据权利要求1所述的方法,其特征在于,所述获取第一商家信息文本,包括:
获取用户通过设定接口输入的第一商家信息提问内容;
根据所述第一商家信息提问内容,获得所述第一商家信息文本;
其中,所述第二商家信息文本为根据用户通过所述设定接口输入的第二商家信息提问内容获得的商家信息文本。
3.根据权利要求2所述的方法,其特征在于,所述设定接口包括商家信息提问语音输入接口;
所述根据所述第一商家信息提问内容,获得所述第一商家信息文本,包括:
对所述第一商家信息提问内容进行音频转写文本处理,获得所述第一商家信息文本。
4.根据权利要求2所述的方法,其特征在于,在所述获取对应所述第一商家信息文本的目标商家名称之后,所述方法还包括:
从设定数据库存储的对应所述目标商家名称的各个商家信息中,获取对应所述第一商家信息文本的目标商家信息;
将所述目标商家信息发送给输入所述第一商家信息提问内容的用户。
5.根据权利要求1所述的方法,其特征在于,所述目标模型通过以下步骤得到:
对于每一个所述第二商家信息文本,根据所述第二商家信息文本和所述信息检索系统,获得对应所述第二商家信息文本的初始标签;
在外部执行对所述初始标签进行修正操作的情况下,根据所述初始标签和所述修正操作的操作内容,获得所述第二商家信息文本对应的第二标签;
在外部没有执行所述修正操作的情况下,以所述初始标签作为所述第二商家信息文本对应的第二标签;
根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签,对设定模型进行模型训练处理,获得所述目标模型,包括:
根据设定数据库中存储的各个商家名称进行降噪处理,获得所述多个第二商家信息文本中的多个第三商家信息文本,其中,所述设定数据库中存储有与任一所述第三商家信息文本对应的标签相匹配的商家名称;
对所述多个第三商家信息文本和每一所述第三商家信息文本对应的标签进行形式转化处理,以转化为对应所述设定模型的形式,并转化处理结果作为训练语料;
根据所述训练语料对所述设定模型进行模型训练处理,获得所述目标模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称,包括:
根据所述信息检索系统,获取设定数据库中存储的对应所述第一标签的各个第一商家名称,以及每一所述第一商家名称的得分,所述得分用于反映所述第一商家名称与所述第一标签间的关联度;
以获取到的具有最高得分的所述第一商家名称,作为所述目标商家名称。
8.一种获取商家名称的装置,其特征在于,包括:
第一获取模块,用于获取第一商家信息文本;
第二获取模块,用于根据预先训练好的目标模型,获取对应所述第一商家信息文本的第一标签;
其中,所述目标模型为根据多个第二商家信息文本和每一个所述第二商家信息文本对应的第二标签进行模型训练得到的模型,所述第二标签包括用于指示对应所述第二商家信息文本的商家名称的信息;以及,
第三获取模块,用于根据所述第一标签和设定的信息检索系统,获取对应所述第一商家信息文本的目标商家名称。
9.一种获取商家名称的装置,包括存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序,以实现根据权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210195234.0A CN114676319B (zh) | 2022-03-01 | 2022-03-01 | 获取商家名称的方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210195234.0A CN114676319B (zh) | 2022-03-01 | 2022-03-01 | 获取商家名称的方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114676319A true CN114676319A (zh) | 2022-06-28 |
CN114676319B CN114676319B (zh) | 2023-11-24 |
Family
ID=82073188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210195234.0A Active CN114676319B (zh) | 2022-03-01 | 2022-03-01 | 获取商家名称的方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676319B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014146136A (ja) * | 2013-01-28 | 2014-08-14 | Nippon Telegr & Teleph Corp <Ntt> | アイテム情報検索装置、モデル作成装置、アイテム情報検索方法、モデル作成方法、及びプログラム |
CN104484464A (zh) * | 2014-12-30 | 2015-04-01 | 北京东方灵盾科技有限公司 | 一种检索系统和检索方法 |
US9536522B1 (en) * | 2013-12-30 | 2017-01-03 | Google Inc. | Training a natural language processing model with information retrieval model annotations |
US20170116679A1 (en) * | 2015-10-23 | 2017-04-27 | Oracle International Corporation | Merchant identification and expense item classification from a mobile device capture of an event receipt |
CN107908684A (zh) * | 2017-10-31 | 2018-04-13 | 北京金堤科技有限公司 | 企业信息搜索方法及装置 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
US20200326197A1 (en) * | 2019-04-11 | 2020-10-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, computer device and storage medium for determining poi alias |
CN112036172A (zh) * | 2020-09-09 | 2020-12-04 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
CN112597208A (zh) * | 2020-12-29 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 企业名称检索方法、企业名称检索装置及终端设备 |
WO2021082397A1 (zh) * | 2019-10-28 | 2021-05-06 | 百度在线网络技术(北京)有限公司 | 获取poi状态信息的方法、装置、设备和计算机存储介质 |
US20210287069A1 (en) * | 2020-03-12 | 2021-09-16 | Oracle International Corporation | Name matching engine boosted by machine learning |
-
2022
- 2022-03-01 CN CN202210195234.0A patent/CN114676319B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014146136A (ja) * | 2013-01-28 | 2014-08-14 | Nippon Telegr & Teleph Corp <Ntt> | アイテム情報検索装置、モデル作成装置、アイテム情報検索方法、モデル作成方法、及びプログラム |
US9536522B1 (en) * | 2013-12-30 | 2017-01-03 | Google Inc. | Training a natural language processing model with information retrieval model annotations |
CN104484464A (zh) * | 2014-12-30 | 2015-04-01 | 北京东方灵盾科技有限公司 | 一种检索系统和检索方法 |
US20170116679A1 (en) * | 2015-10-23 | 2017-04-27 | Oracle International Corporation | Merchant identification and expense item classification from a mobile device capture of an event receipt |
CN107908684A (zh) * | 2017-10-31 | 2018-04-13 | 北京金堤科技有限公司 | 企业信息搜索方法及装置 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
CN109815952A (zh) * | 2019-01-24 | 2019-05-28 | 珠海市筑巢科技有限公司 | 品牌名称识别方法、计算机装置及计算机可读存储介质 |
US20200326197A1 (en) * | 2019-04-11 | 2020-10-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, computer device and storage medium for determining poi alias |
WO2021082397A1 (zh) * | 2019-10-28 | 2021-05-06 | 百度在线网络技术(北京)有限公司 | 获取poi状态信息的方法、装置、设备和计算机存储介质 |
US20210287069A1 (en) * | 2020-03-12 | 2021-09-16 | Oracle International Corporation | Name matching engine boosted by machine learning |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
CN112036172A (zh) * | 2020-09-09 | 2020-12-04 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
CN112597208A (zh) * | 2020-12-29 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 企业名称检索方法、企业名称检索装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114676319B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN111191016B (zh) | 一种多轮对话处理方法、装置及计算设备 | |
CN110797016B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
US10592607B2 (en) | Iterative alternating neural attention for machine reading | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN111951779B (zh) | 语音合成的前端处理方法及相关设备 | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
CN110808032B (zh) | 一种语音识别方法、装置、计算机设备及存储介质 | |
CN113657113B (zh) | 文本处理方法、装置和电子设备 | |
CN113642316B (zh) | 中文文本纠错方法、装置、电子设备及存储介质 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
US20240078385A1 (en) | Method and apparatus for generating text | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN112634865B (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN107766498A (zh) | 用于生成信息的方法和装置 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112542154B (zh) | 文本转换方法、装置、计算机可读存储介质及电子设备 | |
US20230153550A1 (en) | Machine Translation Method and Apparatus, Device and Storage Medium | |
CN108920560B (zh) | 生成方法、训练方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |