CN113239245A - 用于信息查询的方法及装置、电子设备、可读存储介质 - Google Patents
用于信息查询的方法及装置、电子设备、可读存储介质 Download PDFInfo
- Publication number
- CN113239245A CN113239245A CN202110544220.0A CN202110544220A CN113239245A CN 113239245 A CN113239245 A CN 113239245A CN 202110544220 A CN202110544220 A CN 202110544220A CN 113239245 A CN113239245 A CN 113239245A
- Authority
- CN
- China
- Prior art keywords
- character string
- information
- query information
- character
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 239000000203 mixture Substances 0.000 claims description 5
- 230000001788 irregular Effects 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请涉及信息查询技术领域,公开一种用于信息查询的方法,包括:获取查询信息,获取查询信息的字符情况;字符情况用于表征查询信息包含的字符类型情况,在字符情况为查询信息包括中文字符和英文字符的情况下,将查询信息中的中文字符转换为拼音字符串,根据拼音字符串和查询信息中的英文字符生成待转换字符串,利用预设的字符转换模型将待转换字符串转换为第一中文字符串,根据第一中文字符串进行信息查询。本申请能够将不规范的查询信息转换为更加规范的查询信息,从而更准确的获取需要的查询结果。本申请还公开一种用于信息查询的装置、电子设备和可读存储介质。
Description
技术领域
本申请涉及信息查询技术领域,具体涉及一种用于信息查询的方法及装置、电子设备、可读存储介质。
背景技术
在知识库中进行搜索时,只有在输入框中输入正确内容的情况下,才能够搜索出正确的或相关的内容,但是在用户进行信息查询的实际情况中,往往会误操作或者对输入的查询信息把握不够,造成输入的查询信息常常包括中文字符、拼音字符和英文字符中的一种或多种。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
在进行信息查询时,查询信息的不规范表达容易导致难以准确获取到需要的查询结果。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于信息查询的方法及装置、电子设备和可读存储介质,以提高信息查询的准确率。
在一些实施例中,上述用于信息查询的方法包括:获取查询信息;获取所述查询信息的字符情况;所述字符情况用于表征所述查询信息包含的字符类型情况;在所述字符情况为所述查询信息包括中文字符和英文字符的情况下,将所述查询信息中的中文字符转换为拼音字符串;根据所述拼音字符串和所述查询信息中的英文字符生成待转换字符串;利用预设的字符转换模型将所述待转换字符串转换为第一中文字符串;根据所述第一中文字符串进行信息查询。
在一些实施例中,上述用于信息查询的装置包括:第一获取模块,被配置为获取查询信息;第二获取模块,被配置为获取所述查询信息的字符情况;所述字符情况用于表征所述查询信息包含的字符类型情况;第一转换模块,被配置为在所述字符情况为所述查询信息包括中文字符和英文字符的情况下,将所述查询信息中的中文字符转换为拼音字符串;生成模块,被配置为根据所述拼音字符串和所述查询信息中的英文字符生成待转换字符串;第二转换模块,被配置为利用预设的字符转换模型将所述待转换字符串转换为第一中文字符串;查询模块,被配置为根据所述第一中文字符串进行信息查询。
在一些实施例中,上述电子设备包括:处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于信息查询的方法。
在一些实施例中,上述可读存储介质,存储有可执行指令,所述可执行指令在运行时执行上述的用于信息查询的方法。
本公开实施例提供的用于信息查询的方法及装置、电子设备、可读存储介质,可以实现以下技术效果:通过将查询信息中的中文字符转换为拼音字符串,根据拼音字符串和查询信息中的英文字符生成待转换字符串;利用预设的字符转换模型将待转换字符串转换为第一中文字符串;这样,能够将不规范的查询信息转换为更加规范的查询信息,从而更准确的获取需要的查询结果。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于信息查询的方法的示意图;
图2是本公开实施例提供的一个用于信息查询的装置的示意图;
图3是本公开实施例提供的一个电子设备的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
结合图1所示,本公开实施例提供一种用于信息查询的方法,包括:
步骤S101、获取查询信息;
步骤S102、获取查询信息的字符情况;字符情况用于表征查询信息包含的字符类型情况;
步骤S103、在字符情况为查询信息包括中文字符和英文字符的情况下,将查询信息中的中文字符转换为拼音字符串;
步骤S104、根据拼音字符串和查询信息中的英文字符生成待转换字符串;
步骤S105、利用预设的字符转换模型将待转换字符串转换为第一中文字符串;
步骤S106、根据第一中文字符串进行信息查询。
本公开实施例通过将查询信息中的中文字符转换为拼音字符串,根据拼音字符串和查询信息中的英文字符生成待转换字符串;利用预设的字符转换模型将待转换字符串转换为第一中文字符串;这样,能够将不规范的查询信息转换为更加规范的查询信息,从而更准确的获取需要的查询结果。
在一些实施例中,在字符情况为查询信息包括中文字符和英文字符的情况下,将查询信息中的中文字符转换为拼音字符串;根据拼音字符串和查询信息中的英文字符生成待转换字符串,包括:将查询信息中的中文字符替换为对应的拼音字符串,获得待纠正查询信息,去除待纠正查询信息中的空格、制表符\t、回车换行等特殊字符,获得待转换字符串。
可选地,获取查询信息的字符情况后,还包括:在字符情况为查询信息只包括英文字符的情况下,确定查询信息的构成情况;构成情况用于表征查询信息包含的信息类型情况;在构成情况为查询信息包括拼音信息的情况下,将拼音信息转换为第二中文字符串;根据第二中文字符串和查询信息中的英文字符生成目标查询信息,并根据目标查询信息进行信息查询。
可选地,确定查询信息的构成情况,包括:将查询信息中任意英文字符串确定为待检测字符串;将待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,在拼音词典中存在与待检测字符串相同的第二预设拼音字符串的情况下,确定查询信息的构成情况为查询信息包括拼音信息,拼音词典中存储有第二预设拼音字符串以及第二预设拼音字符串与第二中文字符串的对应关系。
可选地,将拼音信息转换为第二中文字符串,包括:在拼音词典中匹配出与待检测字符串相同的第二预设拼音字符串所对应的第二中文字符串。
可选地,获取查询信息的字符情况后,还包括:在字符情况为查询信息只包括英文字符的情况下,确定查询信息的构成情况;构成情况用于表征查询信息包含的信息类型情况;在构成情况为查询信息只包括英文信息的情况下,根据查询信息进行信息查询。
可选地,确定查询信息的构成情况,包括:将查询信息中任意英文字符串确定为待检测字符串;将待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,在拼音词典中不存在与待检测字符串相同的第二预设拼音字符串的情况下,确定查询信息的构成情况为查询信息只包括英文信息,拼音词典中存储有第二预设拼音字符串。
可选地,获取查询信息的字符情况后,还包括:在字符情况为查询信息只包括中文字符的情况下,根据查询信息进行信息查询。
在一些实施例中,获取查询信息,获取查询信息的字符情况,判断查询信息中的各字符的Unicdoe编码是否在4E00~9FFF内,如果该字符的Unicdoe编码在4E00~9FFF内,确定该字符为中文字符,中文字符计数加1。例如:查询信息的字符‘人’的Unicdoe编码是在4E00~9FFF内,中文字符计数加1。将查询信息中的各字符的Unicdoe编码均判断是否在4E00~9FFF内之后,将中文字符计数总数和输入的查询信息的文本字符串长度进行比较,如果相等,则确定查询信息全为中文字符,如果不相等,则确定查询信息含有其它字符。再进行英文字符判断,判断查询信息中的各字符是否属于范围a-z或A-Z,在属于范围a-z或A-Z内的情况下,则英文字符计数加1;例如:查询信息的字符ch属于范围a-z;将查询信息中的各字符均判断是否在a-z或A-Z内之后,将英文字符计数总数和输入的查询信息的文本字符串长度进行比较,如果相等,则确定查询信息全为英文字符,如果不相等,则确定查询信息含有其它字符。在中文字符计数总数不为零且小于输入的查询信息的文本字符串长度,且英文字符计数长度总数不为零,且小于输入的查询信息的文本字符串长度的情况下,则确定输入的文本字符串是中文和拼音的混合。
在输入的查询信息均为英文字符的情况下,由于输入的英文字符之间没有空格,因此无法进行合理的分词。将查询信息中任意英文字符串确定为待检测字符串,将待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对;首先比对待检测字符串首字母是否与第二预设拼音字符串的首字母相同,若相同,继续比对待检测字符串的第二个字母是否与该第二预设拼音字符串的第二个字母相同,直到待检测字符串的所有字母都比对完毕,若待检测字符串的所有字母与第二预设拼音字符串完全相同,则确定该待检测字符串为拼音信息;若待检测字符串的第m个字母与第二预设拼音字符串的第m个字母不相同,则将第m+1个字母作为新的待检测字符串首字母,并将新的待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,直到将查询信息中的所有英文字符都比对完毕。
可选地,若待检测字符串的第m个字母与第二预设拼音字符串的第m个字母不相同,则将第m-1个字母作为新的待检测字符串首字母,并将新的待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,直到将查询信息中的所有英文字符都比对完毕。
可选地,将与预设的拼音词典中的第二预设拼音字符串不相同的英文字符串确定为英文信息。
可选地,预设的拼音词典为基于知识库图谱的拼音-汉字词典,基于知识库图谱的拼音-汉字词典中包括各类实体和各类文档名称中文字符串以及对应的拼音字符串。可选地,将预设的拼音词典中与停用词词典相同的拼音字符串去除。可选地,实体包括:人名、产品名等,文档名称包括XXX安装手册、XXX使用文档等。停用词词典包括:既可为拼音信息,也可为英文信息的英文字符串和对应地中文字符串,例如:我们(women);停用词词典还包括语气词和语气词对应的英文字符,例如,哦(o)等。这样,避免了直接将英文字符确定为拼音信息进行信息查询,从而更准确的识别用户的查询意图。
在查询信息均为中文字符的情况下,根据查询信息直接进行信息查询。
在查询信息均为英文信息的情况下,根据查询信息直接进行信息查询。
在查询信息既包括中文字符又包括英文字符的情况下,将查询信息中的中文字符通过HanLP(汉语言处理包)汉字转拼音接口转换为拼音字符串,获得中间查询信息,去除中间查询信息中的空格、制表符\t、回车换行等特殊字符,获得待切分查询信息。例如:中间查询信息为an zhuang shouce,待切分查询信息为:anzhuangshouce。对待切分查询信息anzhuangshouce用正则表达式进行拼音切分:通过计算:"[^aoeiuv]?h?[iuv]?(ai|ei|ao|ou|er|ang?|eng?|ong|a|o|e|i|u|ng|n)?"获得切分后的查询信息an zhuang shou ce,将切分后的查询信息确定为待转换字符串。将待转换字符串根据预设的HMM(隐马尔可夫模型)转换为第一中文字符串,包括:对备选拼音字符串或待纠错字符串进行汉语音节划分处理,得到音节序列;获取音节序列中每个汉语音节对应的一组候选汉字,并基于预设统计模型从每个汉语音节对应的一组候选文字中确定出每个汉语音节对应的目标汉字,其中,预设统计模型用于表示每两个汉语音节对应的候选汉字之间的关联性;按照音节序列中汉语音节的顺序将目标汉字组合成语句,并将该语句确定为第一中文字符串。
隐马尔可夫模型(HMM)是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型包括初始概率矩阵模型、状态转移矩阵模型和观测矩阵模型。
可选地,初始概率矩阵模型包括第一个汉字组中每个候选汉字对应的统计概率值,其中,第一个汉字组为音节序列中第一汉语音节对应的一组候选汉字。状态转移矩阵模型包括每个候选汉字的读音各自对应的统计概率值。观测矩阵模型包括每个候选汉字对应的目标汉字。
可选地,根据基于知识库图谱的拼音-汉字词典获取初始概率矩阵模型。可选地,建立初始概率矩阵模型,包括:获取基于知识库图谱的拼音-汉字词典,确定基于知识库图谱的拼音-汉字词典中所有的词首汉字,并统计每个词首汉字的出现次数,然后计算出现次数的对数,并将该对数记为词首汉字的统计概率值。如果某个汉字从未出现在词首位置,则该汉字对应的统计概率值为0。初始概率矩阵模型的数据格式为json。
可选地,根据基于知识库图谱的拼音-汉字词典获取观测矩阵模型,根据基于知识库图谱的拼音-汉字词典,统计每个汉字的各种读音以及每种读音出现的次数,将次数的对数记为读音对应的统计概率值;例如‘了’的读音包括‘liao’和‘le’,‘liao’对应的统计概率值为0.5,‘le’对应的统计概率值为0.5,将其存储为:{‘了’:{‘liao’:0.5,‘le’:0.5}};观测矩阵模型的数据格式为json。
可选地,根据基于知识库图谱的拼音-汉字词典获取状态转移矩阵模型。可选地,建立状态转移矩阵模型包括:将初始概率矩阵模型中的每个汉字确定为前位汉字,统计基于知识库图谱的拼音-汉字词典中前位汉字的后位汉字(即位于该前位汉字后边的汉字),并统计每个后位汉字在前位汉字后边出现的次数的对数,将每个后位汉字对应的对数作为前位汉字与该后位汉字之间的关联概率值。例如:前位汉字为“你”,基于知识库图谱的汉语词典中“你”的后位汉字有“好”和“们”,分别统计“你好”和“你们”出现的次数的对数,将“你好”对应的对数0.8记为“你”与“好”之间的关联概率值,将“你们”对应的对数0.2记为“你”与“们”之间的关联概率值。将其存储为:{‘你’:{‘好’:0.8,‘们’:0.2}},状态转移矩阵模型的数据格式为json。
可选地,基于预设统计模型从每个汉语音节对应的一组候选汉字中确定出每个汉语音节对应的目标汉字,包括:根据音节序列中汉语音节的顺序,依次计算每个汉语音节对应的每个候选汉字的概率最值。
可选地,通过计算δ1(i)=πiBi(O1)获得第一个汉字组中每个候选汉字的概率最值;其中,δ1(i)为第一个汉字组中第i个候选汉字的概率最值,πi为初始概率矩阵中第一个汉字组的第i个候选汉字的统计概率值,Bi(O1)为观测矩阵中第一个汉字组的第i个候选汉字的读音O1对应的统计概率值,O1与音节序列中第一个汉语音节一致,i=1,…M1,M1为第一汉字组中候选汉字的个数。
通过计算获得第t个汉字组中每个候选汉字的概率最值;其中,δt(i)为第t个汉字组中第i个候选汉字的概率最值,δt-1(j)为第t-1个汉字组中第j个候选汉字的概率最值,aji为状态转移矩阵中第t个汉字组中第i个候选汉字与第t-1个汉字组中第j个候选汉字之间的关联概率值,Bi(Ot)为观测矩阵中第t个汉字组的第i个候选汉字的读音Ot对应的统计概率值,i=1,2...N,N为第t个汉字组中候选汉字的个数,j=1,2...Mt-1,Mt-1为t-1个汉字组中候选汉字的个数,分别将δ1(i)和δt(i)对应的候选汉字确定为目标汉字,并按照音节序列中汉语音节的顺序将目标汉字组合成语句,确定语句为第一中文字符串。
可选地,定时获取知识库图谱中的知识,实时更新基于知识库图谱的拼音-汉字词典,并基于更新后的拼音-汉字词典再次获取HMM,以保证基于知识库图谱的拼音-汉字词典中的词为最新的知识库图谱中的词,使得HMM能够及时矫正。这样通过深度学习技术,实时更新HMM,使得可以对拼音信息和英文信息进行有效的判断,提高了拼音信息转换为中文字符的准确率,能够更准确的获取需要的查询结果。
本公开实施例提供的用于信息查询的方法通过将查询信息中的中文字符转换为拼音字符串,根据拼音字符串和查询信息中的英文字符生成待转换字符串;利用预设的字符转换模型将待转换字符串转换为第一中文字符串;通过自然语言处理将不规范的查询信息转换为更加规范的查询信息,从而更准确的获取需要的查询结果。
结合图2所示,本公开实施例提供一种用于信息查询的装置,包括:第一获取模块201、第二获取模块202、第一转换模块203、生成模块204、第二转换模块205和查询模块206。第一获取模块201,被配置为获取查询信息;第二获取模块202,被配置为获取查询信息的字符情况;字符情况用于表征查询信息包含的字符类型情况;第一转换模块203,被配置为在字符情况为查询信息包括中文字符和英文字符的情况下,将查询信息中的中文字符转换为拼音字符串;生成模块204,被配置为根据拼音字符串和查询信息中的英文字符生成待转换字符串;第二转换模块205,被配置为利用预设的字符转换模型将待转换字符串转换为第一中文字符串;查询模块206,被配置为根据第一中文字符串进行信息查询。
本公开实施例提供的用于信息查询的装置,通过第一转换模块将查询信息中的中文字符转换为拼音字符串,根据生成模块将拼音字符串和查询信息中的英文字符生成待转换字符串;第二转换模块利用预设的字符转换模型将待转换字符串转换为第一中文字符串;这样,能够将不规范的查询信息转换为更加规范的查询信息,从而更准确的获取需要的查询结果。
可选地,用于信息查询的装置,还包括:确定模块,被配置为在字符情况为查询信息只包括英文字符的情况下,确定查询信息的构成情况。
可选地,第二转换模块205,还被配置为在构成情况为查询信息包括拼音信息的情况下,将拼音信息转换为第二中文字符串。
可选地,查询模块206,还被配置为根据第二中文字符串和查询信息中的英文字符生成目标查询信息,并根据目标查询信息进行信息查询。
可选地,确定模块,还被配置为将查询信息中任意英文字符串确定为待检测字符串;将待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,在拼音词典中存在与待检测字符串相同的第二预设拼音字符串的情况下,确定查询信息的构成情况为查询信息包括拼音信息,拼音词典中存储有第二预设拼音字符串以及第二预设拼音字符串与第二中文字符串的对应关系。
可选地,第二转换模块205,被配置为在拼音词典中匹配出与待检测字符串相同的第二预设拼音字符串所对应的第二中文字符串。
可选地,确定模块,还被配置为在字符情况为查询信息只包括英文字符的情况下,确定查询信息的构成情况;
可选地,查询模块206,还被配置为在构成情况为查询信息只包括英文信息的情况下,根据查询信息进行信息查询。
可选地,确定模块,还被配置为将查询信息中任意英文字符串确定为待检测字符串;将待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,在拼音词典中不存在与待检测字符串相同的第二预设拼音字符串的情况下,确定查询信息的构成情况为查询信息只包括英文信息,拼音词典中存储有第二预设拼音字符串。
可选地,查询模块206,还被配置为在字符情况为查询信息只包括中文字符的情况下,根据查询信息进行信息查询。
结合图3所示,本公开实施例提供一种电子设备,包括处理器(processor)300和存储器(memory)301。可选地,该装置还可以包括通信接口(Communication Interface)302和总线303。其中,处理器300、通信接口302、存储器301可以通过总线303完成相互间的通信。通信接口302可以用于信息传输。处理器300可以调用存储器301中的逻辑指令,以执行上述实施例的用于信息查询的方法。
本公开实施例提供的电子设备,通过将查询信息中的中文字符转换为拼音字符串,根据拼音字符串和查询信息中的英文字符生成待转换字符串;利用预设的字符转换模型将待转换字符串转换为第一中文字符串;这样,能够将不规范的查询信息转换为更加规范的查询信息,从而更准确的获取需要的查询结果。
此外,上述的存储器301中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器301作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器300通过运行存储在存储器301中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于信息查询的方法。
存储器301可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器301可以包括高速随机存取存储器,还可以包括非易失性存储器。
可选地,电子设备包括计算机。
本公开实施例提供了一种可读存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行上述用于信息查询的方法。
本公开实施例提供的可读存储介质,通过将查询信息中的中文字符转换为拼音字符串,根据拼音字符串和查询信息中的英文字符生成待转换字符串;利用预设的字符转换模型将待转换字符串转换为第一中文字符串;这样,能够将不规范的查询信息转换为更加规范的查询信息,从而更准确的获取需要的查询结果。
本公开实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述用于信息查询的方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (10)
1.一种用于信息查询的方法,其特征在于,包括:
获取查询信息;
获取所述查询信息的字符情况;
在所述字符情况为所述查询信息包括中文字符和英文字符的情况下,将所述查询信息中的中文字符转换为拼音字符串;
根据所述拼音字符串和所述查询信息中的英文字符生成待转换字符串;
利用预设的字符转换模型将所述待转换字符串转换为第一中文字符串;
根据所述第一中文字符串进行信息查询。
2.根据权利要求1所述的方法,其特征在于,获取所述查询信息的字符情况后,还包括:
在所述字符情况为所述查询信息只包括英文字符的情况下,确定所述查询信息的构成情况;
在所述构成情况为所述查询信息包括拼音信息的情况下,将所述拼音信息转换为第二中文字符串;根据所述第二中文字符串和所述查询信息中的英文字符生成目标查询信息,并根据所述目标查询信息进行信息查询。
3.根据权利要求2所述的方法,其特征在于,确定所述查询信息的构成情况,包括:
将所述查询信息中任意英文字符串确定为待检测字符串;将所述待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,在所述拼音词典中存在与所述待检测字符串相同的第二预设拼音字符串的情况下,确定所述查询信息的构成情况为所述查询信息包括拼音信息,所述拼音词典中存储有第二预设拼音字符串以及所述第二预设拼音字符串与第二中文字符串的对应关系。
4.根据权利要求3所述的方法,其特征在于,将所述拼音信息转换为第二中文字符串,包括:
在所述拼音词典中匹配出与所述待检测字符串相同的第二预设拼音字符串所对应的第二中文字符串。
5.根据权利要求1所述的方法,其特征在于,获取所述查询信息的字符情况后,还包括:
在所述字符情况为所述查询信息只包括英文字符的情况下,确定所述查询信息的构成情况;
在所述构成情况为所述查询信息只包括英文信息的情况下,根据所述查询信息进行信息查询。
6.根据权利要求5所述的方法,其特征在于,确定所述查询信息的构成情况,包括:
将所述查询信息中任意英文字符串确定为待检测字符串;将所述待检测字符串与预设的拼音词典中的第二预设拼音字符串进行比对,在所述拼音词典中不存在与所述待检测字符串相同的第二预设拼音字符串的情况下,确定所述查询信息的构成情况为所述查询信息只包括英文信息,所述拼音词典中存储有第二预设拼音字符串。
7.根据权利要求1所述的方法,其特征在于,获取所述查询信息的字符情况后,还包括:
在所述字符情况为所述查询信息只包括中文字符的情况下,根据所述查询信息进行信息查询。
8.一种用于信息查询的装置,其特征在于,包括:
第一获取模块,被配置为获取查询信息;
第二获取模块,被配置为获取所述查询信息的字符情况;
第一转换模块,被配置为在所述字符情况为所述查询信息包括中文字符和英文字符的情况下,将所述查询信息中的中文字符转换为拼音字符串;
生成模块,被配置为根据所述拼音字符串和所述查询信息中的英文字符生成待转换字符串;
第二转换模块,被配置为利用预设的字符转换模型将所述待转换字符串转换为第一中文字符串;
查询模块,被配置为根据所述第一中文字符串进行信息查询。
9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至7任一项所述的用于信息查询的方法。
10.一种可读存储介质,存储有可执行指令,其特征在于,所述可执行指令在运行时执行如权利要求1至7任一项所述的用于信息查询的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544220.0A CN113239245A (zh) | 2021-05-19 | 2021-05-19 | 用于信息查询的方法及装置、电子设备、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544220.0A CN113239245A (zh) | 2021-05-19 | 2021-05-19 | 用于信息查询的方法及装置、电子设备、可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239245A true CN113239245A (zh) | 2021-08-10 |
Family
ID=77137501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110544220.0A Pending CN113239245A (zh) | 2021-05-19 | 2021-05-19 | 用于信息查询的方法及装置、电子设备、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239245A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168808A (zh) * | 2021-11-22 | 2022-03-11 | 中核核电运行管理有限公司 | 基于正则表达式的文档字符串编码识别方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN106168954A (zh) * | 2016-06-07 | 2016-11-30 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN110162794A (zh) * | 2019-05-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种分词的方法及服务器 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
CN112417102A (zh) * | 2020-11-26 | 2021-02-26 | 中国科学院自动化研究所 | 一种语音查询方法、装置、服务器和可读存储介质 |
CN112530404A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
-
2021
- 2021-05-19 CN CN202110544220.0A patent/CN113239245A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198149A (zh) * | 2013-04-23 | 2013-07-10 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN106168954A (zh) * | 2016-06-07 | 2016-11-30 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN110162794A (zh) * | 2019-05-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种分词的方法及服务器 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
CN112417102A (zh) * | 2020-11-26 | 2021-02-26 | 中国科学院自动化研究所 | 一种语音查询方法、装置、服务器和可读存储介质 |
CN112530404A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168808A (zh) * | 2021-11-22 | 2022-03-11 | 中核核电运行管理有限公司 | 基于正则表达式的文档字符串编码识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568774B2 (ja) | 手書き文字認識で使用されるテンプレートを生成する方法 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN111460793A (zh) | 纠错方法、装置、设备及存储介质 | |
CN111858843A (zh) | 一种文本分类方法及装置 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
CN111984845B (zh) | 网站错别字识别方法和系统 | |
CN111160041A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN110532569B (zh) | 一种基于中文分词的数据碰撞方法及系统 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN113239245A (zh) | 用于信息查询的方法及装置、电子设备、可读存储介质 | |
CN109213988B (zh) | 基于N-gram模型的弹幕主题提取方法、介质、设备及系统 | |
CN113297346A (zh) | 文本意图识别方法、装置、设备及存储介质 | |
CN111209724A (zh) | 文本的校验方法、装置、存储介质以及处理器 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN111581963B (zh) | 提取时间字符串的方法、装置、计算机设备及存储介质 | |
CN116484842A (zh) | 语句纠错的方法及装置、电子设备、存储介质 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN111859901B (zh) | 一种英文重复文本检测方法、系统、终端及存储介质 | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 | |
CN114462427A (zh) | 基于术语保护的机器翻译方法及装置 | |
CN114548075A (zh) | 文本处理方法、文本处理装置、存储介质与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |