CN108255841A - 一种题目搜索的方法及其装置 - Google Patents
一种题目搜索的方法及其装置 Download PDFInfo
- Publication number
- CN108255841A CN108255841A CN201611239092.4A CN201611239092A CN108255841A CN 108255841 A CN108255841 A CN 108255841A CN 201611239092 A CN201611239092 A CN 201611239092A CN 108255841 A CN108255841 A CN 108255841A
- Authority
- CN
- China
- Prior art keywords
- topic
- sequence
- textual character
- search
- taihe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000015654 memory Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 239000004816 latex Substances 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 229920000126 latex Polymers 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种题目搜索的方法及其装置,所述方法,包括:对输入语音进行语音识别,获得所述语音对应的文本符号序列;根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号;分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。本申请实施例能够利用语音实现题目的搜索,减少人工输入的时间,提高了搜索效率。
Description
技术领域
本申请属于电子教学技术领域,具体涉及一种题目搜索的方法及其装置。
背景技术
随着计算机和互联网的普及,学校和培训机构普遍使用计算机来管理和维护教学过程中需要使用的题目。随着题目量的增多,寻找特定的题目会变得越来越困难。例如,有的题库已经拥有了数千万道题目,单纯依靠人力在如此庞大的题库中寻找需要的题目,会耗费极大的时间。
因此,通常通过文本搜索的功能,由用户人工输入文本,即题目描述或题目关键字,然后根据特定算法,由计算机自动在题目数据库中进行搜索,并将相关的题目呈现给用户。
采用文本搜索的方式进行题目搜索,需要进行人工输入,输入效率较低。从而造成在一些对时间有要求的场合不能适用,例如老师在课堂布置作业和答疑等。
因此,如何实现简单便捷的题目搜索,成为现有技术中亟需解决的技术问题。
发明内容
本申请实施例解决的技术问题之一在于提供一种题目搜索的方法及其装置,其能够利用语音实现题目的搜索,减少人工输入的时间,提高了搜索效率。
本申请实施例提供一种题目搜索的方法,包括:
对输入语音进行语音识别,获得所述语音对应的文本符号序列;
根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号;
分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。
在本申请一具体实施例中,所述对输入语音进行语音识别,获得所述语音对应的文本符号序列包括:
获得采集的所述输入语音,并将所述输入语音转化为数字格式;
将所述数字格式的输入语音进行语音识别,获得所述语音对应的文本符号序列。
在本申请一具体实施例中,所述方法还包括:
将文本符号分别与数学符号和拉泰赫符号的对应关系存储为对应表。
在本申请一具体实施例中,所述分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目包括:
分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果;
将所述三组搜索结果进行合并,根据相似度选取K个搜索结果进行排序,所述K为自然数。
在本申请一具体实施例中,所述分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果还包括:
如果输入语音对应的题目为选择题,将所述选择题的题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列。
在本申请一具体实施例中,所述相似度采用最长公共子序列的方法进行计算获得。
在本申请一具体实施例中,所述方法还包括:
将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示。
在本申请一具体实施例中,所述将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示包括:
将每一题目的题目描述放置于<html></html>标签对中;
将每一题目中的图片以链接形式插入到所述题目描述中。
在本申请一具体实施例中,所述将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示还包括:
如果题目中有公式,则利用转换工具将公式转化为图片,在公式处嵌入所述图片的链接。
在本申请一具体实施例中,所述将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示还包括:
如果题目中有选项,则根据用户需求在所述HTML页面中调整并显示所述选项。
对应上述方法,本申请还提供一种题目搜索的装置,包括:
语音识别模块,用于对输入语音进行语音识别,获得所述语音对应的文本符号序列;
字符转化模块,用于根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号;
字符搜索模块,用于分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。
在本申请一具体实施例中,所述语音识别模块包括:
数字转化单元,用于获得采集的所述输入语音,并将所述输入语音转化为数字格式;
符号获得单元,用于将所述数字格式的输入语音进行语音识别,获得所述语音对应的文本符号序列。
在本申请一具体实施例中,所述装置还包括:
对应表预存模块,用于将文本符号分别与数学符号和拉泰赫符号的对应关系存储为对应表。
在本申请一具体实施例中,所述字符搜索模块包括:
分别搜索单元,用于分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果;
结果合并单元,用于将所述三组搜索结果进行合并,根据相似度选取K个搜索结果进行排序,所述K为自然数。
在本申请一具体实施例中,所述分别搜索单元还用于如果输入语音对应的题目为选择题,将所述选择题的题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列。
在本申请一具体实施例中,所述相似度采用最长公共子序列的装置进行计算获得。
在本申请一具体实施例中,所述装置还包括:
结果显示模块,用于将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示。
在本申请一具体实施例中,所述结果显示模块包括:
描述放置单元,用于将每一题目的题目描述放置于<html></html>标签对中;
图片插入单元,用于将每一题目中的图片以链接形式插入到所述题目描述中。
在本申请一具体实施例中,所述结果显示模块还用于如果题目中有公式,则利用转换工具将公式转化为图片,在公式处嵌入所述图片的链接。
在本申请一具体实施例中,所述结果显示模块还用于如果题目中有选项,根据用户需求在所述HTML页面中调整并显示所述选项。
由上述描述可知,本申请实施例利用文本识别后的输入语音,获得所述语音对应的文本符号序列。从而根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号。本申请实施例分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。因此,本申请实施例能够利用语音识别实现题目搜索,减少人工输入的时间,提高了搜索效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种题目搜索的方法一实施例流程图;
图2是本申请提供的一种题目搜索的方法中步骤S1一实施例流程图;
图3是本申请提供的一种题目搜索的方法另一实施例流程图;
图4是本申请提供的一种题目搜索的方法中步骤S3一实施例流程图;
图5是本申请提供的一种题目搜索的方法另一实施例流程图;
图6是本申请提供的一种题目搜索的方法中步骤S4一实施例流程图;
图7是本申请提供的一种题目搜索的装置一实施例结构图;
图8是本申请提供的一种题目搜索的装置中语音识别模块一实施例结构图;
图9是本申请提供的一种题目搜索的装置另一实施例结构图;
图10是本申请提供的一种题目搜索的装置中字符搜索模块一实施例结构图;
图11是本申请提供的一种题目搜索的装置另一实施例结构图;
图12是本申请提供的一种题目搜索的装置中结果显示模块一实施例结构图;
图13是本申请提供的题目搜索的方法的电子设备的硬件结构示意图。
具体实施方式
本申请实施例利用文本识别后的输入语音,获得所述语音对应的文本符号序列。从而根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号。本申请实施例分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。因此,本申请实施例能够利用语音识别实现题目搜索,减少人工输入的时间,提高了搜索效率。
尽管本申请能够具有许多不同形式的实施例,但在附图中显示并且将在本文详细描述的特定实施例,应该理解,这种实施例的公开应该被视为原理的示例,而非意图把本申请限制于显示和描述的特定实施例。在以下的描述中,相同的标号用于描述附图的几个示图中的相同、相似或对应的部分。
如本文所使用,术语“一个”或“一种”被定义为一个(种)或超过一个(种)。如本文所使用,术语“多个”被定义为两个或超过两个。如本文所使用,术语“其他”被定义为至少再一个或更多个。如本文所使用,术语“包含”和/或“具有”被定义为包括(即,开放式语言)。如本文所使用,术语“耦合”被定义为连接,但未必是直接连接,并且未必是以机械方式连接。如本文所使用,术语“程序”或“计算机程序”或类似术语被定义为设计用于在计算机系统上执行的指令序列。“程序”或“计算机程序”可包括子程序、函数、过程、对象方法、对象实现、可执行应用、小应用程序、小服务程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。
在整个本文件中对“一个实施例”、“某些实施例”、“实施例”或类似术语的提及表示结合实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,在整个本说明书的各种地方的这种词语的出现不必全部表示相同的实施例。另外,所述特定特征、结构或特性可非限制性地在一个或多个实施例中以任何合适的方式组合。
如本文所使用,术语“或者”应该被解释为是包括性的或者表示任何一种或任何组合。因此,“A、B或者C”表示“下面的任何一种:A;B;C;A和B;A和C;B和C;A,B和C”。仅当元件、功能、步骤或动作的组合以某种方式固有地相互排斥时,将会发生这种定义的例外。
为了使本领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
下面结合本申请附图进一步说明本申请具体实现。
参见图1,本申请一实施例提供一种题目搜索的方法,包括:
S1、对输入语音进行语音识别,获得所述语音对应的文本符号序列。
本申请实施例利用麦克风等设备采集用户输入的语音,对所述输入的语音利用现有的语音识别算法获得所述语音对应的文本符号序列,即字符串形式。
S2、根据预设的对应表,找到所述文本符号序列中的文本符号分别对应的数学符号和拉泰赫符号。
将语音识别获得的文本符号序列直接进行搜索,即先将输入语音识别成文本符号,然后利用所述文本符号进行搜索,会存在搜索结果不准确的问题。
在实际中,有些题目具有公式和符号,在计算中是以符号和latex等格式进行存储的,而不是以文本进行存储的。例如“根号”存储为“√”或“\sqrt”。如果将语音识别的文本符号“根号”作为关键词进行搜索,则不会匹配到“√”或“\sqrt”,导致搜索结果不准确。
因此,本申请实施例根据预设的对应表,找到所述文本符号序列中的文本符号分别对应的数学符号和拉泰赫符号,从而获得与输入语音对应的所述文本符号序列、数学符号序列和拉泰赫符号序列。
S3、分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。
本申请分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,因此无论题目描述中出现的文本符号,还是题目中具有的数学符号和拉泰赫符号,均可以被准确的搜索获得,提高了搜索结果的准确性。
因此,本申请实施例能够利用语音识别实现题目搜索,减少人工输入的时间,提高了搜索效率。
在本申请一具体实现中,本申请提供一种题目搜索的方法,包括步骤S1至S3。参见图2,所述步骤S1包括:
S11、获得采集的所述输入语音,并将所述输入语音转化为数字格式。
本申请实施例麦克风等设备采集的输入语音,通过模数转化为数字信号,并进行存储。
S12、将所述数字格式的输入语音进行语音识别,获得所述语音对应的文本符号序列。
本申请利用现有的语音识别技术对所述数字格式的输入语音进行识别,所述语音识别技术为现有技术,故在此不再赘述。
在本申请另一具体实现中,本申请提供一种题目搜索的方法,包括步骤S1至S3。参见图3,所述方法还包括:
S0、将文本符号分别与数学符号和拉泰赫符号的对应关系存储为对应表。
LaTeX(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。这个系统同样适用于生成从简单的信件到完整书籍的所有其他种类的文档。
具体地,所述对应表中的每一行表示某文本符号对应的数学符号和拉泰赫符号,例如表一所示。
表一
文本符号 | 数学符号 | 拉泰赫符号 |
根号 | √ | \sqrt |
…… | …… | …… |
本申请实施例通过查询预存的表一,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号。从而获得与输入语音对应的所述文本符号序列、数学符号序列和拉泰赫符号序列。
在本申请再一具体实现中,本申请提供一种题目搜索的方法,包括步骤S1至S3。参见图4,所述步骤S3包括:
S31、分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果。
具体地,本申请实施例分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索。
例如,查询对应表将文本字符串A中的文本符号分别转换为数学符号B和拉泰赫符号C。利用现有的搜索技术,分别对所述文本字符串A、数学符号B和拉泰赫符号C进行搜索,获得三组搜索结果。
在符号搜索中,需要将输入字符串与题目数据库中的每个题目的描述进行相似度计算,相似度计算可以采用最长公共子序列的方法。具体地,设字符串A和A’的最长公共子序列为A”,它们的长度分别记为|A|,|A’|,|A”|,那么相似度S定义为S=|A”|/max(|A|,|A’|)。
S32、将所述三组搜索结果进行汇总,根据相似度选取K个搜索结果进行排序,所述K为自然数。
将所述三组搜索结果进行汇总,并按照相似度从高到底进行排序,选取前K个结果即可。K为自然数,由用户设定或者系统默认。
在本申请再一具体实现中,所述步骤S31还包括:
如果输入语音对应的题目为选择题,将所述选择题的题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列。
由于选择题包括题目描述与选项,计算输入语音对应的题目的题目描述与选项以及题目数据库中存储的题目的题目描述与选项的相似度才能够准确获得输入语音对应的题目与题目数据库中存储的题目的相似度。因此,本申请实施例将题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列,能够更加准确的对选择题进行搜索。
在本申请再一具体实现中,本申请提供一种题目搜索的方法,包括步骤S1至S3。参见图5,所述方法还包括步骤:
S4、将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示。
具体地,参见图6,所述步骤S4包括:
S41、将每一题目的题目描述放置于<html></html>标签对中。
S42、将每一题目中的图片以链接形式插入到所述题目描述中。
具体地,所述步骤S4还包括:
如果题目中有公式,则利用转换工具将公式转化为图片,在公式处嵌入所述图片的链接。
本申请实施例通过在公式处嵌入所述图片的链接,来显示所述题目中的公式。
具体地,所述步骤S4还包括:
如果题目中有选项,则根据用户需求在所述HTML页面中调整并显示所述选项。
对应上述装置,参见图7,本申请另一实施例提供一种题目搜索的装置,包括:
语音识别模块71,用于对输入语音进行语音识别,获得所述语音对应的文本符号序列。
字符转化模块72,用于根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号。
字符搜索模块73,用于分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。
本申请实施例利用麦克风等设备采集用户输入的语音,对所述输入的语音利用现有的语音识别算法获得所述语音对应的文本符号序列,即字符串形式。
将语音识别获得的文本符号序列直接进行搜索,即先将输入语音识别成文本符号,然后利用所述文本符号进行搜索,会存在搜索结果不准确的问题。
例如,有些题目具有公式和符号,在计算中是以符号和latex等格式进行存储的,而不是以文本进行存储的。例如“根号”存储为“√”或“\sqrt”。如果将语音识别的文本符号“根号”作为关键词进行搜索,则不会匹配到“√”或“\sqrt”,导致搜索结果不准确。
因此,本申请实施例根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号,从而获得与输入语音对应的所述文本符号序列、数学符号序列和拉泰赫符号序列。
本申请分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,因此无论题目描述中出现的文本符号,还是题目中具有的数学符号和拉泰赫符号,均可以被准确的搜索获得,提高了搜索结果的准确性。
因此,本申请实施例能够利用语音识别实现题目搜索,减少人工输入的时间,提高了搜索效率。
在本申请一具体实现中,本申请提供一种题目搜索的装置,包括语音识别模块71、字符转化模块72、字符搜索模块73。参见图8,所述语音识别模块71包括:
数字转化单元711,用于获得采集的所述输入语音,并将所述输入语音转化为数字格式。
符号获得单元712,用于将所述数字格式的输入语音进行语音识别,获得所述语音对应的文本符号序列。
本申请实施例麦克风等设备采集的输入语音,通过模数转化为数字信号,并进行存储。
本申请利用现有的语音识别技术对所述数字格式的输入语音进行识别,所述语音识别技术为现有技术,故在此不再赘述。
在本申请另一具体实现中,本申请提供一种题目搜索的装置,包括语音识别模块71、字符转化模块72、字符搜索模块73。参见图9,所述装置还包括:
对应表预存模块70,用于将文本符号分别与数学符号和拉泰赫符号的对应关系存储为对应表。
LaTeX(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。这个系统同样适用于生成从简单的信件到完整书籍的所有其他种类的文档。
具体地,所述对应表中的每一行表示某文本符号对应的数学符号和拉泰赫符号,例如表一所示。
表一
文本符号 | 数学符号 | 拉泰赫符号 |
根号 | √ | \sqrt |
…… | …… | …… |
本申请实施例通过查询预存的表一,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号。从而获得与输入语音对应的所述文本符号序列、数学符号序列和拉泰赫符号序列。
在本申请再一具体实现中,本申请提供一种题目搜索的装置,包括语音识别模块71、字符转化模块72、字符搜索模块73。参见图10,所述字符搜索模块73包括:
分别搜索单元731,用于分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果。
结果合并单元732,用于将所述三组搜索结果进行合并,根据相似度选取K个搜索结果进行排序,所述K为自然数。
具体地,本申请实施例分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索。
例如,查询对应表将文本字符串A中的文本符号分别转换为数学符号B和拉泰赫符号C。利用现有的搜索技术,分别对所述文本字符串A、数学符号B和拉泰赫符号C进行搜索,获得三组搜索结果。
在符号搜索中,需要将输入字符串与题目数据库中的每个题目的描述进行相似度计算,相似度计算可以采用最长公共子序列的装置。具体地,设字符串A和A’的最长公共子序列为A”,它们的长度分别记为|A|,|A’|,|A”|,那么相似度S定义为S=|A”|/max(|A|,|A’|)。
将所述三组搜索结果进行合并,并按照相似度从高到底排序,选取前K个结果即可。K为自然数,由用户设定或者系统默认。
在本申请再一具体实现中,所述分别搜索单元731还用于如果输入语音对应的题目为选择题,将所述选择题的题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列。
由于选择题包括题目描述与选项,计算输入语音对应的题目的题目描述与选项以及题目数据库中存储的题目的题目描述与选项的相似度才能够准确获得输入语音对应的题目与题目数据库中存储的题目的相似度。因此,本申请实施例将题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列,能够更加准确的对选择题进行搜索。
在本申请再一具体实现中,本申请提供一种题目搜索的装置,包括语音识别模块71、字符转化模块72、字符搜索模块73。参见图11,所述装置还包括:
结果显示模块74,用于将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示。
具体地,参见图12,所述结果显示模块74包括:
描述放置单元741,用于将每一题目的题目描述放置于<html></html>标签对中。
图片插入单元742,用于将每一题目中的图片以链接形式插入到所述题目描述中。
具体地,所述结果显示模块74还用于如果题目中有公式,则利用转换工具将公式转化为图片,在公式处嵌入所述图片的链接。
本申请实施例通过在公式处嵌入所述图片的链接,来显示所述题目中的公式。
具体地,所述结果显示模块74还用于如果题目中有选项,则根据用户需求在所述HTML页面中调整并显示所述选项。
图13是本申请题目搜索的方法的电子设备的硬件结构示意图。根据图13所示,该设备包括:
一个或多个处理器1310以及存储器1320,图13中以一个处理器1310为例。
题目搜索的方法的设备还可以包括:输入装置1330和输出装置1330。
处理器1310、存储器1320、输入装置1330和输出装置1330可以通过总线或者其他方式连接,图13中以通过总线连接为例。
存储器1320作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的题目搜索的方法对应的程序指令/模块(例如,附图7所示的语音识别模块71、字符转化模块72、字符搜索模块73)。处理器1310通过运行存储在存储器1320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例题目搜索的方法。
存储器1320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据题目搜索的装置的使用所创建的数据等。此外,存储器1320可以包括高速随机存取存储器1320,还可以包括非易失性存储器1320,例如至少一个磁盘存储器1320件、闪存器件、或其他非易失性固态存储器1320件。在一些实施例中,存储器1320可选包括相对于处理器1310远程设置的存储器1320,这些远程存储器1320可以通过网络连接至音效模式选择装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置1330可接收输入的数字或字符信息,以及产生与题目搜索的装置的用户设置以及功能控制有关的键信号输入。输出装置1330可包括扬声器等设备。
所述一个或者多个模块存储在所述存储器1320中,当被所述一个或者多个处理器1310执行时,执行上述任意方法实施例中的题目搜索的方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(6)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (20)
1.一种题目搜索的方法,其特征在于,包括:
对输入语音进行语音识别,获得所述语音对应的文本符号序列;
根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号;(根据对应表找到相应的数学符号和拉泰赫符号)
分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。
2.如权利要求1所述的方法,其特征在于,所述对输入语音进行语音识别,获得所述语音对应的文本符号序列包括:
获得采集的所述输入语音,并将所述输入语音转化为数字格式;
将所述数字格式的输入语音进行语音识别,获得所述语音对应的文本符号序列。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
将文本符号分别与数学符号和拉泰赫符号的对应关系存储为对应表。
4.如权利要求3所述的方法,其特征在于,所述分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目包括:
分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果;
将所述三组搜索结果进行汇总,根据相似度选取K个搜索结果进行排序,所述K为自然数。
5.如权利要求4所述的方法,其特征在于,所述分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果还包括:
如果输入语音对应的题目为选择题,将所述选择题的题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列。
6.如权利要求4所述的方法,其特征在于,所述相似度采用最长公共子序列的方法进行计算获得。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示。
8.如权利要求7所述的方法,其特征在于,所述将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示包括:
将每一题目的题目描述放置于<html></html>标签对中;
将每一题目中的图片以链接形式插入到所述题目描述中。
9.如权利要求8所述的方法,其特征在于,所述将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示还包括:
如果题目中有公式,则利用转换工具将公式转化为图片,在公式处嵌入所述图片的链接。
10.如权利要求8所述的方法,其特征在于,所述将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示还包括:
如果题目中有选项,则根据用户需求在所述HTML页面中调整并显示所述选项。
11.一种题目搜索的装置,其特征在于,包括:
语音识别模块,用于对输入语音进行语音识别,获得所述语音对应的文本符号序列;
字符转化模块,用于根据预设的对应表,将所述文本符号序列中的文本符号分别转换为数学符号和拉泰赫符号;
字符搜索模块,用于分别对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得题目数据库中对应的题目。
12.如权利要求11所述的装置,其特征在于,所述语音识别模块包括:
数字转化单元,用于获得采集的所述输入语音,并将所述输入语音转化为数字格式;
符号获得单元,用于将所述数字格式的输入语音进行语音识别,获得所述语音对应的文本符号序列。
13.如权利要求12所述的装置,其特征在于,所述装置还包括:
对应表预存模块,用于将文本符号分别与数学符号和拉泰赫符号的对应关系存储为对应表。
14.如权利要求13所述的装置,其特征在于,所述字符搜索模块包括:
分别搜索单元,用于分别针对所述文本符号序列、数学符号序列和拉泰赫符号序列进行搜索,获得三组搜索结果;
结果合并单元,用于将所述三组搜索结果进行合并,根据相似度选取K个搜索结果进行排序,所述K为自然数。
15.如权利要求14所述的装置,其特征在于,所述分别搜索单元还用于如果输入语音对应的题目为选择题,将所述选择题的题目描述与选项进行拼接作为搜索使用的所述文本符号序列、数学符号序列和拉泰赫符号序列。
16.如权利要求14所述的装置,其特征在于,所述相似度采用最长公共子序列的装置进行计算获得。
17.如权利要求11所述的装置,其特征在于,所述装置还包括:
结果显示模块,用于将所述对应的题目列表根据用户需求进行排版并形成HTML页面进行显示。
18.如权利要求17所述的装置,其特征在于,所述结果显示模块包括:
描述放置单元,用于将每一题目的题目描述放置于<html></html>标签对中;
图片插入单元,用于将每一题目中的图片以链接形式插入到所述题目描述中。
19.如权利要求18所述的装置,其特征在于,所述结果显示模块还用于如果题目中有公式,则利用转换工具将公式转化为图片,在公式处嵌入所述图片的链接。
20.如权利要求18所述的装置,其特征在于,所述结果显示模块还用于如果题目中有选项,根据用户需求在所述HTML页面中调整并显示所述选项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611239092.4A CN108255841A (zh) | 2016-12-28 | 2016-12-28 | 一种题目搜索的方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611239092.4A CN108255841A (zh) | 2016-12-28 | 2016-12-28 | 一种题目搜索的方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108255841A true CN108255841A (zh) | 2018-07-06 |
Family
ID=62720431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611239092.4A Pending CN108255841A (zh) | 2016-12-28 | 2016-12-28 | 一种题目搜索的方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108255841A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753583A (zh) * | 2019-01-16 | 2019-05-14 | 广东小天才科技有限公司 | 一种搜题方法及电子设备 |
CN112445453A (zh) * | 2020-11-10 | 2021-03-05 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
CN113140138A (zh) * | 2021-04-25 | 2021-07-20 | 新东方教育科技集团有限公司 | 互动教学方法、装置、存储介质及电子设备 |
CN113326675A (zh) * | 2021-08-04 | 2021-08-31 | 江西风向标教育科技有限公司 | 一种用于教育资源库的公式处理方法及系统 |
CN113987115A (zh) * | 2021-09-26 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 一种文本相似度计算方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004246824A (ja) * | 2003-02-17 | 2004-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声ドキュメント検索方法及び装置及び音声ドキュメント検索プログラム |
CN101859186A (zh) * | 2010-06-08 | 2010-10-13 | 宁随军 | 一种输入数学公式的方法及装置 |
CN102486801A (zh) * | 2011-09-06 | 2012-06-06 | 上海博路信息技术有限公司 | 一种语音识别方式获取出版物内容的方法 |
CN104063063A (zh) * | 2014-06-05 | 2014-09-24 | 北京搜狗科技发展有限公司 | 输入法的数学计算输入方法和输入法系统 |
CN104156207A (zh) * | 2014-07-31 | 2014-11-19 | 广州金山网络科技有限公司 | 一种文档显示方法以及装置 |
CN104281589A (zh) * | 2013-07-03 | 2015-01-14 | 深圳习习网络科技有限公司 | 一种数学公式搜索方法及装置 |
CN104573099A (zh) * | 2015-01-29 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 题目的搜索方法及装置 |
CN104679871A (zh) * | 2015-03-06 | 2015-06-03 | 北京语言大学 | 一种汉语文本检索方法及汉语文本检索装置 |
CN105426390A (zh) * | 2015-10-23 | 2016-03-23 | 广东小天才科技有限公司 | 一种基于图像识别的试题搜索方法和系统 |
-
2016
- 2016-12-28 CN CN201611239092.4A patent/CN108255841A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004246824A (ja) * | 2003-02-17 | 2004-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声ドキュメント検索方法及び装置及び音声ドキュメント検索プログラム |
CN101859186A (zh) * | 2010-06-08 | 2010-10-13 | 宁随军 | 一种输入数学公式的方法及装置 |
CN102486801A (zh) * | 2011-09-06 | 2012-06-06 | 上海博路信息技术有限公司 | 一种语音识别方式获取出版物内容的方法 |
CN104281589A (zh) * | 2013-07-03 | 2015-01-14 | 深圳习习网络科技有限公司 | 一种数学公式搜索方法及装置 |
CN104063063A (zh) * | 2014-06-05 | 2014-09-24 | 北京搜狗科技发展有限公司 | 输入法的数学计算输入方法和输入法系统 |
CN104156207A (zh) * | 2014-07-31 | 2014-11-19 | 广州金山网络科技有限公司 | 一种文档显示方法以及装置 |
CN104573099A (zh) * | 2015-01-29 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 题目的搜索方法及装置 |
CN104679871A (zh) * | 2015-03-06 | 2015-06-03 | 北京语言大学 | 一种汉语文本检索方法及汉语文本检索装置 |
CN105426390A (zh) * | 2015-10-23 | 2016-03-23 | 广东小天才科技有限公司 | 一种基于图像识别的试题搜索方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753583A (zh) * | 2019-01-16 | 2019-05-14 | 广东小天才科技有限公司 | 一种搜题方法及电子设备 |
CN112445453A (zh) * | 2020-11-10 | 2021-03-05 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
CN113140138A (zh) * | 2021-04-25 | 2021-07-20 | 新东方教育科技集团有限公司 | 互动教学方法、装置、存储介质及电子设备 |
CN113326675A (zh) * | 2021-08-04 | 2021-08-31 | 江西风向标教育科技有限公司 | 一种用于教育资源库的公式处理方法及系统 |
CN113987115A (zh) * | 2021-09-26 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 一种文本相似度计算方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108255841A (zh) | 一种题目搜索的方法及其装置 | |
CN108920666B (zh) | 基于语义理解的搜索方法、系统、电子设备及存储介质 | |
CN110246487A (zh) | 用于单通道的语音识别模型的优化方法及系统 | |
CN107077841A (zh) | 用于文本到语音的超结构循环神经网络 | |
CN108345593A (zh) | 一种基于题库系统的教学讲义生成方法及其装置 | |
CN109036391A (zh) | 语音识别方法、装置及系统 | |
CN107798931A (zh) | 一种智能幼教学习系统及方法 | |
CN110399488B (zh) | 文本分类方法及装置 | |
CN114401431B (zh) | 一种虚拟人讲解视频生成方法及相关装置 | |
CN107291343A (zh) | 笔记的记录方法、装置和计算机可读存储介质 | |
CN111046194A (zh) | 构建多模态教学知识图谱的方法 | |
CN111709223B (zh) | 基于bert的句子向量生成方法、装置及电子设备 | |
CN114390220B (zh) | 一种动画视频生成方法及相关装置 | |
CN105989067A (zh) | 从图片生成文本摘要的方法、用户设备及训练服务器 | |
CN107748744A (zh) | 一种勾勒框知识库的建立方法及装置 | |
CN109359308A (zh) | 机器翻译方法、装置及可读存储介质 | |
CN108846125A (zh) | 对话生成方法、装置、终端和计算机可读存储介质 | |
CN109635125B (zh) | 一种词汇图谱搭建方法及电子设备 | |
CN114707000A (zh) | 一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质 | |
CN108133209A (zh) | 一种文本识别中的目标区域搜索方法及其装置 | |
CN108255798A (zh) | 一种拉泰赫格式公式的输入方法及其装置 | |
KR101794547B1 (ko) | 단어장 자동 생성 및 학습훈련 시스템 및 방법 | |
CN112800177A (zh) | 基于复杂数据类型的faq知识库自动生成方法和装置 | |
Fahlgren | Studying fundamental ecclesial practices | |
CN108133168A (zh) | 一种文本识别中的公式搜索方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |
|
RJ01 | Rejection of invention patent application after publication |