JP7183316B2 - Voice recording retrieval method, computer device and computer program - Google Patents

Voice recording retrieval method, computer device and computer program Download PDF

Info

Publication number
JP7183316B2
JP7183316B2 JP2021018726A JP2021018726A JP7183316B2 JP 7183316 B2 JP7183316 B2 JP 7183316B2 JP 2021018726 A JP2021018726 A JP 2021018726A JP 2021018726 A JP2021018726 A JP 2021018726A JP 7183316 B2 JP7183316 B2 JP 7183316B2
Authority
JP
Japan
Prior art keywords
words
recording
search
voice
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021018726A
Other languages
Japanese (ja)
Other versions
JP2022056307A (en
Inventor
ジウン シン
ギルファン ファン
イェリム チョン
ヒャンナム オ
ユジン チョン
デヒョン イム
ドンヨル イ
ジョンミン チェ
ヒョンジン キム
デグン ソン
ヨンス ソン
ジンミョン イ
ドクス キム
ゴンミン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022056307A publication Critical patent/JP2022056307A/en
Application granted granted Critical
Publication of JP7183316B2 publication Critical patent/JP7183316B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

以下の説明は、音声をテキストに変換した音声記録から単語を検索する技術に関する。 The following description relates to techniques for retrieving words from speech-to-text audio recordings.

一般に、モバイル音声変換は、モバイルデバイスで音声を録音し、音声録音の後に、録音された区間の音声をテキストに変換してディスプレイ上に表示することにより行われる。 In general, mobile speech conversion is performed by recording speech on a mobile device, converting the recorded speech into text after the speech recording, and displaying the text on a display.

このような音声変換技術の一例として、特許文献1(公開日2014年5月23日)には、音声録音およびテキスト変換を実行する技術が開示されている。 As an example of such voice conversion technology, Patent Document 1 (published on May 23, 2014) discloses a technology for performing voice recording and text conversion.

韓国公開特許第10-2014-0062217号公報Korean Patent Publication No. 10-2014-0062217

音声をテキストに変換した音声記録から単語を検索するときに、似た発音の単語を含んで検索する方法とシステムを提供する。 To provide a method and system for retrieving words including words with similar pronunciation when retrieving words from voice recordings in which voice is converted into text.

発音に基づく検索結果に含まれた単語を検索正確度によってフィルタリングする方法とシステムを提供する。 A method and system are provided for filtering words included in pronunciation-based search results by search accuracy.

発音に基づく検索結果に含まれた単語のディスプレイ要素を検索正確度によって異なるように表示する方法とシステムを提供する。 A method and system for differently displaying display elements of words included in pronunciation-based search results according to search accuracy are provided.

発音に基づく検索結果に含まれた単語を他の単語に修正する方法とシステムを提供する。 A method and system are provided for correcting words contained in pronunciation-based search results to other words.

コンピュータ装置が実行する音声記録検索方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記音声記録検索方法は、前記少なくとも1つのプロセッサにより、音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索する段階を含み、前記検索する段階は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索することを特徴とする、音声記録検索方法を提供する。 A method of retrieving audio recordings performed by a computing device, said computing device including at least one processor configured to execute computer readable instructions contained in a memory, said method of retrieving audio recordings comprising said retrieving, by at least one processor, words corresponding to a search term from an audio recording produced by converting speech to text, said retrieving searching for words that are similar in pronunciation to the search term from the audio recording. To provide a method for retrieving voice recordings, characterized by retrieving including similar words that are words of .

一側面によると、前記検索する段階は、単語が分離される単位を利用した単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索してよい。 According to one aspect, the searching step may search for a word having a degree of similarity above a predetermined percentage with the search word as the similar word by comparing words using a unit in which words are separated.

他の側面によると、前記検索する段階は、字素単位、語幹単位、ターム単位のうちの少なくとも1つの単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索してよい。 According to another aspect, the step of retrieving includes comparing words based on at least one of glyph units, stem units, and term units to find words that have a certain percentage or more of similarity to the search term. may be retrieved as the similar word.

また他の側面によると、前記音声記録検索方法は、前記少なくとも1つのプロセッサにより、検索結果に含まれた少なくとも1つの単語を他の単語に修正する段階をさらに含んでよい。 According to yet another aspect, the method of retrieving voice recordings may further include correcting, by the at least one processor, at least one word included in the search result to another word.

また他の側面によると、前記修正する段階は、前記検索結果に含まれた単語全体を一度に修正する機能または前記検索結果に含まれた単語の一部を選択して修正する機能を利用して、前記他の単語に修正してよい。 According to another aspect, the correcting step uses a function of correcting all words included in the search result at once or a function of selectively correcting a part of the words included in the search result. may be modified to the other word.

また他の側面によると、前記検索する段階は、検索結果に含まれた単語のディスプレイ要素を前記検索語との類似度によって異なるように表示する段階を含んでよい。 According to another aspect, the searching may include displaying display elements of words included in the search result differently according to similarity to the search word.

また他の側面によると、前記検索する段階は、前記検索語との類似度に基づき、検索結果に含まれた単語をフィルタリングする段階を含んでよい。 According to another aspect, the searching may include filtering words included in search results based on similarity to the search term.

また他の側面によると、前記音声記録は、前記音声の録音中または再生中に作成されたメモとマッチングされて管理され、前記検索する段階は、前記音声記録と前記メモを検索範囲として前記類似単語を検索してよい。 According to another aspect, the voice recording is managed by being matched with a memo created during recording or playback of the voice, and the searching includes the voice recording and the memo as search ranges. You can search for words.

また他の側面によると、前記音声記録検索方法は、前記少なくとも1つのプロセッサにより、前記音声記録と前記音声の録音中または再生中に作成されたメモとを連係させて提供する段階をさらに含んでよい。 According to yet another aspect, the method of retrieving audio recordings further includes providing, by the at least one processor, the audio recordings in conjunction with notes made during recording or playback of the audio. good.

さらに他の側面によると、前記提供する段階は、デュアルビュー方式によって前記音声記録と前記メモをともに表示する段階を含んでよい。 According to yet another aspect, the providing step may include displaying both the voice recording and the note in a dual-view manner.

前記音声記録検索方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。 A computer-readable recording medium is provided in which a program for causing a computer to execute the voice recording retrieval method is recorded.

コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索する音声記録検索部を含み、前記音声記録検索部は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索することを特徴とする、コンピュータ装置を提供する。 1. A computer apparatus comprising at least one processor configured to execute computer readable instructions contained in a memory, said at least one processor generating an audio recording produced by converting speech to text a voice recording search unit for searching for a word corresponding to the search term from the voice recording, wherein the voice recording search unit searches for similar words that are words with a similar pronunciation to the search term from the voice recording A computing device is provided.

本発明の実施形態によると、音声をテキストに変換した音声記録から単語を検索するときに、似た発音の単語を含んで検索することにより、音声記録の単語検索の性能を高めることができる。 According to an embodiment of the present invention, when searching for words from voice-to-text voice recordings, the performance of word retrieval of voice recordings can be improved by including words with similar pronunciations.

本発明の実施形態によると、発音に基づく検索結果に含まれた単語を検索正確度によってフィルタリングする機能、発音に基づく検索結果に含まれた単語を他の単語に修正する機能などを提供することにより、サービスの利用に対するユーザの利便性を高めることができる。 According to an embodiment of the present invention, a function of filtering words included in the pronunciation-based search results according to search accuracy, a function of correcting the words included in the pronunciation-based search results to other words, etc. are provided. Therefore, it is possible to enhance the user's convenience in using the service.

本発明の一実施形態における、ネットワーク環境の例を示した図である。1 is a diagram showing an example of a network environment in one embodiment of the present invention; FIG. 本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。1 is a block diagram illustrating an example of a computing device, in accordance with one embodiment of the present invention; FIG. 本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示した図である。FIG. 2 illustrates an example of components that a processor of a computing device may include in one embodiment of the present invention; 本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。1 is a flowchart illustrating an example of a method that may be performed by a computing device in accordance with one embodiment of the present invention; 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。FIG. 4 is a diagram showing an example of a user interface screen for audio recording management in one embodiment of the present invention; 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。FIG. 4 is a diagram showing an example of a user interface screen for audio recording management in one embodiment of the present invention; 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。FIG. 4 is a diagram showing an example of a user interface screen for audio recording management in one embodiment of the present invention; 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。FIG. 4 is a diagram showing an example of a user interface screen for audio recording management in one embodiment of the present invention; 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。FIG. 4 is a diagram showing an example of a user interface screen for audio recording management in one embodiment of the present invention; 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。FIG. 4 is a diagram showing an example of a user interface screen for audio recording management in one embodiment of the present invention; 本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。FIG. 4 is a diagram showing an example of a user interface screen for audio recording management in one embodiment of the present invention;

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

本発明の実施形態に係る音声記録管理システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る音声記録検索方法は、音声記録管理システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されるコンピュータプログラムの制御にしたがって本発明の実施形態に係る音声記録検索方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置に結合されて音声記録検索方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。 An audio recording management system according to an embodiment of the present invention may be implemented by at least one computer device, and an audio recording retrieval method according to an embodiment of the present invention may be implemented by at least one computer device included in the audio recording management system. may be executed. A computer program according to an embodiment of the present invention may be installed and executed in the computer device, and the computer device executes the voice recording retrieval method according to the embodiment of the present invention under the control of the executed computer program. You can The computer program described above may be recorded in a computer-readable recording medium to be coupled to a computer device and cause the computer to execute the voice recording retrieval method.

図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。また、図1のネットワーク環境は、本実施形態に適用可能な環境の一例を説明したものに過ぎず、本実施形態に適用可能な環境が図1のネットワーク環境に限定されることはない。 FIG. 1 is a diagram showing an example of a network environment in one embodiment of the present invention. The network environment of FIG. 1 illustrates an example including multiple electronic devices 110 , 120 , 130 , 140 , multiple servers 150 , 160 , and a network 170 . Such FIG. 1 is merely an example for explaining the invention, and the number of electronic devices and the number of servers are not limited as in FIG. Also, the network environment in FIG. 1 is merely an example of an environment applicable to this embodiment, and the environment applicable to this embodiment is not limited to the network environment in FIG.

複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。 The plurality of electronic devices 110, 120, 130, 140 may be fixed terminals or mobile terminals implemented by computing devices. Examples of the plurality of electronic devices 110, 120, 130, and 140 include smartphones, mobile phones, navigation systems, PCs (personal computers), notebook PCs, digital broadcasting terminals, PDAs (Personal Digital Assistants), and PMPs (Portable Multimedia Players). ), tablets, etc. As an example, FIG. 1 shows a smart phone as an example of the electronic device 110, but in embodiments of the present invention, the electronic device 110 substantially utilizes a wireless or wired communication scheme and communicates with other devices via the network 170. may refer to one of a wide variety of physical computing devices capable of communicating with the electronic devices 120, 130, 140 and/or the servers 150, 160.

通信方式は限定されず、ネットワーク170が含むことが可能な通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。 The communication method is not limited, and not only a communication method using a communication network that can be included in the network 170 (eg, mobile communication network, wired Internet, wireless Internet, broadcast network), but also short-range wireless communication between devices. may be included. For example, the network 170 includes a PAN (personal area network), a LAN (local area network), a CAN (campus area network), a MAN (metropolitan area network), a WAN (wide area network), a BBN (broadband network), and the Internet. Any one or more of the networks may be included. Additionally, network 170 may include any one or more of network topologies including, but not limited to, bus networks, star networks, ring networks, mesh networks, star-bus networks, tree or hierarchical networks, and the like. will not be

サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、音声記録管理サービス(または、議事録管理サービス)、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。 Each of servers 150, 160 is implemented by one or more computing devices that communicate with a plurality of electronic devices 110, 120, 130, 140 over network 170 to provide instructions, code, files, content, services, etc. good. For example, the server 150 provides services (eg, voice record management service (or minutes management service), content provision service, group call (or audio conferencing service), messaging service, email service, social network service, map service, translation service, financial service, payment service, search service, etc.).

図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、図2に示したコンピュータ装置200によって実現されてよい。 FIG. 2 is a block diagram illustrating an example computing device, in accordance with one embodiment of the present invention. Each of the plurality of electronic devices 110, 120, 130 and 140 and each of the servers 150 and 160 described above may be realized by the computer device 200 shown in FIG.

このようなコンピュータ装置200は、図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。 Such a computing device 200 may include memory 210, processor 220, communication interface 230, and input/output interface 240, as shown in FIG. The memory 210 is a computer-readable storage medium and may include random access memory (RAM), read only memory (ROM), and permanent mass storage devices such as disk drives. Here, a permanent mass storage device such as a ROM or disk drive may be included in computer device 200 as a separate permanent storage device separate from memory 210 . Also stored in memory 210 may be an operating system and at least one program code. Such software components may be loaded into memory 210 from a computer-readable medium separate from memory 210 . Such other computer-readable recording media may include computer-readable recording media such as floppy drives, disks, tapes, DVD/CD-ROM drives, memory cards, and the like. In other embodiments, software components may be loaded into memory 210 through communication interface 230 that is not a computer-readable medium. For example, software components may be loaded into memory 210 of computing device 200 based on computer programs installed by files received over network 170 .

プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。 Processor 220 may be configured to process computer program instructions by performing basic arithmetic, logic, and input/output operations. Instructions may be provided to processor 220 by memory 210 or communication interface 230 . For example, processor 220 may be configured to execute received instructions according to program code stored in a storage device, such as memory 210 .

通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(一例として、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。 Communication interface 230 may provide functionality for computer device 200 to communicate with other devices (eg, the recording device described above) via network 170 . As an example, processor 220 of computing device 200 can transmit requests, commands, data, files, etc. generated according to program code recorded in a recording device such as memory 210 to other devices via network 170 under the control of communication interface 230 . device. Conversely, signals, instructions, data, files, etc. from other devices may be received by computing device 200 through communication interface 230 of computing device 200 over network 170 . Signals, instructions, data, etc. received through the communication interface 230 may be transmitted to the processor 220 and the memory 210, and files may be stored in a recording medium (the permanent recording device described above) that the computing device 200 may further include. may be recorded.

入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、マウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。 Input/output interface 240 may be a means for interfacing with input/output device 250 . For example, input devices may include devices such as microphones, keyboards, mice, etc., and output devices may include devices such as displays, speakers, and the like. As another example, input/output interface 240 may be a means for interfacing with a device that integrates functionality for input and output, such as a touch screen. Input/output device 250 may be one device with computing device 200 .

また、他の実施形態において、コンピュータ装置200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。 Also, in other embodiments, computing device 200 may include fewer or more components than the components of FIG. However, most prior art components need not be explicitly shown in the figures. For example, computing device 200 may be implemented to include at least some of the input/output devices 250 described above, and may also include other components such as transceivers, databases, and the like.

以下では、音声をテキストに変換した音声記録から似た発音の単語を含んで検索する方法およびシステムの具体的な実施形態について説明する。 Specific embodiments of methods and systems for searching speech-to-text audio recordings containing words with similar pronunciations are described below.

最近は、多くの人が、会議などの多様な環境で音声機能を利用して音声を録音している。このとき、録音とは別に、重要な内容や付随する内容などをメモとして記録することが望まれる場合がある。 These days, many people use audio functions to record audio in a variety of environments, such as meetings. At this time, in addition to recording, it may be desired to record important contents or incidental contents as a memo.

従来技術では、音声録音機能とメモ機能は個別の機能として提供されているので、音声録音ファイルとメモを同時に確認することは必ずしも容易ではなく、メモを見ながら内容を推測するに留まることが多かった。言い換えれば、音声とメモをそれぞれ別に確認せざるをえず、これにより、録音された内容の全体の流れを把握しながらメモを確認することは困難であった。 In the conventional technology, since the voice recording function and the memo function are provided as separate functions, it is not always easy to check the voice recording file and the memo at the same time. rice field. In other words, the user has to check the voice and the memo separately, which makes it difficult to check the memo while grasping the overall flow of the recorded contents.

このような問題を解決するために、本実施形態では、録音された音声をテキストに変換した結果(以下、「音声記録」と称する)と、録音された音声と関連して作成されたメモとをマッチングして管理する音声記録管理サービスを提供する。 In order to solve such a problem, in this embodiment, the result of converting the recorded voice into text (hereinafter referred to as "voice recording") and the memo created in association with the recorded voice provides a voice record management service that matches and manages

本実施形態は、音声録音およびテキスト変換を含む音声記録機能とメモ機能を統合された1つの機能として提供し、音声記録とメモをマッチングしてともに管理することを目的とする。 The purpose of this embodiment is to provide a voice recording function including voice recording and text conversion and a memo function as one integrated function, and to match and manage the voice recording and the memo together.

特に、本実施形態では、音声をテキストに変換するときに、音声認識エラーによって正確でない単語が認識される場合などを勘案した上で、音声記録から似た発音の単語を含む検索機能を提供することを目的とする。 In particular, this embodiment provides a search function that includes words with similar pronunciations from voice recordings, taking into consideration the case where inaccurate words are recognized due to voice recognition errors when converting voice to text. for the purpose.

図3は、本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図4は、本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。 FIG. 3 is a block diagram illustrating exemplary components that a processor of a computing device may include in accordance with one embodiment of the present invention, and FIG. 4 illustrates components executed by the computing device in accordance with one embodiment of the present invention. 4 is a flow chart illustrating an example of how this can be done.

本実施形態に係るコンピュータ装置200は、クライアントを対象に、クライアント上にインストールされた専用アプリケーションやコンピュータ装置200と関連するウェブ/モバイルサイトへの接続により、音声記録管理サービスを提供してよい。コンピュータ装置200には、コンピュータによって実現された音声記録管理システムが構成されてよい。 The computing device 200 according to the present embodiment may provide voice recording management services for clients through a dedicated application installed on the client or by connecting to a web/mobile site associated with the computing device 200 . The computer device 200 may be configured with a computer-implemented voice recording management system.

コンピュータ装置200のプロセッサ220は、図4に係る音声記録検索方法を実行するための構成要素として、図3に示すように、音声記録管理部310、音声記録検索部320、および音声記録修正部330を含んでよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。 The processor 220 of the computer device 200 includes a voice recording management unit 310, a voice recording searching unit 320, and a voice recording correcting unit 330 as shown in FIG. 3 as components for executing the voice recording retrieval method according to FIG. may contain Depending on the embodiment, components of processor 220 may be selectively included or excluded from processor 220 . Also, depending on the embodiment, the components of processor 220 may be separated or merged to represent the functionality of processor 220 .

このようなプロセッサ220およびプロセッサ220の構成要素は、図3の音声記録検索方法が含む段階410~430を実行するようにコンピュータ装置200を制御してよい。例えば、プロセッサ220およびプロセッサ220の構成要素は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。 Such processor 220 and components of processor 220 may control computing device 200 to perform steps 410-430 included in the voice recording retrieval method of FIG. For example, processor 220 and components of processor 220 may be implemented to execute instructions according to the code of an operating system and the code of at least one program contained in memory 210 .

ここで、プロセッサ220の構成要素は、コンピュータ装置200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、互いに異なる機能(different functions)の表現であってよい。例えば、コンピュータ装置200が音声記録を提供するように上述した命令にしたがってコンピュータ装置200を制御するプロセッサ220の機能的表現として、音声記録管理部310が利用されてよい。 Here, the components of processor 220 may represent different functions performed by processor 220 according to instructions provided by program code recorded in computing device 200 . For example, audio recording manager 310 may be utilized as a functional representation of processor 220 controlling computing device 200 according to the instructions described above such that computing device 200 provides audio recordings.

プロセッサ220は、コンピュータ装置200の制御と関連する命令がロードされたメモリ210から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階410~430をプロセッサ220が実行するように制御するための命令を含んでよい。 Processor 220 may read the necessary instructions from memory 210 loaded with instructions associated with the control of computing device 200 . In this case, the read instructions may include instructions for controlling processor 220 to perform steps 410-430 described below.

以下で説明する段階410~430は、図4に示した順とは異なる順で実行されることもあるし、段階410~430のうちの一部が省略されたり追加の過程が含まれたりすることもある。 The steps 410-430 described below may be performed in a different order than shown in FIG. 4, some of the steps 410-430 may be omitted, or additional steps may be included. Sometimes.

音声記録管理部310は、サービス提供のために音声をテキストに変換した音声記録を管理する役割を担う。音声記録管理部310は、クライアントから受信された音声をテキストに変換することによって音声記録を生成してよい。クライアント側のデバイスでは、録音機能を実行させて録音した音声ファイルを伝達してもよいし、デバイス上に記録された音声ファイルを伝達してもよい。音声記録管理部310は、周知の音声認識技術を利用して、話者による発声区間に該当する音声データをテキストに変換した結果である音声記録を生成してよい。このとき、音声記録管理部310は、音声記録を生成する過程において話者ごとに発声区間を分割する話者ダイアライゼーション技術を適用してよい。音声記録管理部310は、会議、インタビュー、取引、裁判などのように多くの話者が順不同に発声する状況で録音された音声ファイルの場合には、発声内容を話者ごとに分割して自動記録してよい。 The voice recording management unit 310 is responsible for managing voice recordings in which voice is converted into text for service provision. The voice recording manager 310 may generate the voice recording by converting the voice received from the client to text. The client-side device may transmit the audio file recorded by executing the recording function, or may transmit the audio file recorded on the device. The voice record manager 310 may use well-known voice recognition techniques to generate voice records that are the result of converting voice data corresponding to utterance segments by the speaker into text. At this time, the voice record manager 310 may apply a speaker diarization technique that divides the utterance period for each speaker in the process of generating the voice record. In the case of a voice file recorded in a situation such as a meeting, an interview, a transaction, a trial, etc., in which many speakers utter in random order, the voice recording management unit 310 automatically divides the utterance contents for each speaker. may be recorded.

また、音声記録管理部310は、クライアントが音声録音中または音声再生中に作成したメモをクライアントから受信し、該当の音声記録とマッチングして管理してよい。音声記録管理部310は、クライアントが音声を録音した時間を基準として、音声記録中または録音実行中に作成されたメモをマッチングしてよい。音声記録は、話者発声区間の基点を示すタイムスタンプを含んでよく、音声記録管理部310は、音声記録のタイムスタンプを基準として、該当の区間に作成されたメモをともに管理してよい。これと同じように、音声記録管理部310は、音声記録が存在する音声ファイルに対し、クライアントが音声を再生する時間を基準として、音声記録中および音声再生中に作成されたメモをマッチングして記録してよい。言い換えれば、音声記録管理部310は、特定の時点の発声区間に作成されたメモを該当の時点の音声記録とマッチングして管理してよい。 In addition, the voice recording management unit 310 may receive a memo created by the client during voice recording or voice playback from the client, match the memo with the corresponding voice recording, and manage the memo. The voice recording manager 310 may match notes created during voice recording or recording based on the time the client recorded the voice. The voice record may include a time stamp indicating the starting point of the speaker's utterance section, and the voice record management unit 310 may manage notes created in the corresponding section based on the time stamp of the voice record. Similarly, the audio recording manager 310 matches memos created during audio recording and audio playback to audio files in which audio recordings exist, based on the time at which the client plays the audio. may be recorded. In other words, the voice recording management unit 310 may match a memo created in a vocalization period at a specific time with a voice recording at the corresponding time and manage the memo.

図4を参照すると、段階410で、音声記録管理部310は、クライアントから特定の音声記録に対する選択命令が受信される場合、該当の音声記録を提供してよい。このとき、音声記録管理部310は、タイムスタンプを基準として、音声記録に含まれた話者発声区間ごとにテキストを整列して表示してよい。 Referring to FIG. 4, in step 410, the voice record manager 310 may provide the corresponding voice record when receiving a selection command for a particular voice record from the client. At this time, the voice record manager 310 may arrange and display the text for each speaker's utterance section included in the voice record based on the time stamp.

音声記録管理部310は、音声記録を提供するにあたり、該当の音声記録をマッチングされたメモと連係させて提供してよい。音声記録管理部310は、音声録音中または音声再生中に作成されたメモを音声記録とともに簡単かつ便利に確認できるように、音声記録とメモをデュアルビュー方式によって並べて表示してよい。デュアルビュー方式とは、音声記録とメモを二列に並べて表示する方式であって、これは、音声をテキストに変換した音声記録と該当の音声の録音時間や再生時間に作成されたメモを並べて表示することで対話記録を簡単に探索できるようにするインタフェースを提供するものである。音声記録管理部310は、音声記録とメモをデュアル表示する方式の他にも、クライアントの選択にしたがい、音声記録とメモのうちの1つを単独表示する方式で実現することも可能である。 When providing the voice record, the voice record manager 310 may provide the corresponding voice record in association with the matched memo. The voice recording manager 310 may display the voice recording and the memo side by side in a dual-view manner so that the memo created during voice recording or voice playback can be easily and conveniently checked together with the voice recording. The dual view method is a method in which voice recordings and memos are displayed side by side in two rows. It provides an interface that makes it easy to search for dialogue records by displaying them. The voice record management unit 310 can be realized by a method of displaying only one of the voice record and the memo according to the client's selection, in addition to the method of dually displaying the voice record and the memo.

段階420で、音声記録検索部320は、段階410で提供された音声記録に対する検索機能を提供してよい。このとき、音声記録検索部320は、音声記録から、検索語に対応する単語と、検索語と似た発音の単語を検索してよい。言い換えれば、音声記録検索部320は、音声記録から特定の単語を検索しようとする場合に、発音に基づいて類似する単語をともに探索する機能を提供してよい。 At step 420 , the voice recording search unit 320 may provide a search function for the voice recordings provided at step 410 . At this time, the voice record search unit 320 may search the voice record for words corresponding to the search term and words with a similar pronunciation to the search term. In other words, the audio recording searcher 320 may provide the ability to jointly search for similar words based on pronunciation when attempting to retrieve a particular word from an audio recording.

一例として、音声記録検索部320は、音声記録に含まれた単語のうちで検索語と一致する同義語はもちろん、検索語に対応する英文の同義語や外来語などを検索してよい。特に、音声記録検索部320は、検索語と似た発音で発話された単語として、単語分離基準、例えば、字素単位、語幹単位、ターム(term)単位などに基づく単語間の比較により、検索語と一定の割合以上の類似度をもつ類義語を検索してよい。 For example, the voice record search unit 320 may search for synonyms that match the search word, as well as English synonyms and foreign words corresponding to the search word, among words included in the voice record. In particular, the speech record retrieval unit 320 retrieves words uttered with similar pronunciation to the search word by comparison between words based on word separation criteria, for example, glyph units, stem units, term units, and the like. You may search for synonyms that have a certain percentage or more of similarity with the word.

音声記録検索部320は、検索過程において、検索語との類似度を示す正確度によるフィルタリング機能を提供してよい。例えば、音声記録検索部320は、ユーザの要求にしたがい、検索語との類似度が90%以上の単語を検索対象に設定して検索結果を提供してよく、検索語との類似度が90%未満の単語は検索結果から除外してよい。 The voice recording search unit 320 may provide a filtering function according to the degree of accuracy indicating similarity to the search word in the search process. For example, the voice recording search unit 320 may set words with a similarity of 90% or more to the search term as search targets and provide search results according to the user's request. Words less than % may be excluded from search results.

検索範囲としては、音声記録はもちろん、該当の音声記録とマッチングされたメモを含んでよく、音声記録検索部320は、音声記録とメモから、検索語に対応する単語と検索語と発音が似た単語を検索してよい。 The search range may include not only voice recordings but also memos matched with the corresponding voice recordings. You can search for words that

また、音声記録検索部320は、検索過程において、単語の結合による検索を許容してよい。言い換えれば、複数の単語を利用した検索を支援してよい。単語単位の検索はもちろん、文章単位の検索の実現も可能である。 In addition, the voice recording search unit 320 may allow searching by combining words in the searching process. In other words, it may support searches using multiple words. It is possible to realize not only word-by-word retrieval but also sentence-by-sentence retrieval.

音声記録検索部320は、音声記録に対する検索結果を提供してよく、このとき、音声記録では、検索結果に含まれた単語を他の単語と区分して表示してよい。一例として、音声記録検索部320は、正確度により、検索結果に含まれた単語のディスプレイ要素(例えば、ハイライト色など)を異なるように表示してよい。例えば、検索語との類似度が90%以上である単語は青色で、検索語との類似度が90%未満~70%以上の単語は水色で、検索語との類似度が70%未満~50%以上の単語は灰色で強調表示してよい。 The voice record search unit 320 may provide search results for voice records, and at this time, in the voice records, words included in the search results may be displayed separately from other words. For example, the voice recording search unit 320 may display different display elements (eg, highlight color, etc.) of words included in the search result according to accuracy. For example, words with a degree of similarity of 90% or more to the search term are colored in blue, words with a degree of similarity of less than 90% to 70% or more to the search term are colored in light blue, and words with a degree of similarity of less than 70% to the search term are colored in blue. More than 50% of words may be highlighted in gray.

段階430で、音声記録修正部330は、検索結果に含まれた少なくとも1つの単語を他の単語に修正してよい。一例として、音声記録修正部330は、検索結果に含まれた単語を、検索語として入力された単語、あるいはユーザが新たに入力した単語に修正してよい。このとき、音声記録修正部330は、ユーザの選択にしたがい、検索結果に含まれた単語全体を一括で修正してもよいし、検索結果に含まれた単語の一部を選択的に修正してもよい。 At step 430, the voice recording modifier 330 may modify at least one word included in the search result to another word. For example, the voice record correction unit 330 may correct the words included in the search results to the words input as the search words or new words input by the user. At this time, the voice record correction unit 330 may collectively correct the entire words included in the search results or selectively correct a part of the words included in the search results according to the user's selection. may

したがって、プロセッサ220は、音声がテキストに変換された音声記録から検索語と似た発音で発話された単語を含んで検索する機能を提供することができ、検索された単語を他の単語に修正することができる修正機能もともに提供することができる。 Therefore, the processor 220 can provide a search function including words uttered with a pronunciation similar to the search word from the voice record converted from voice to text, and correct the searched word to another word. A modification function that can be used can also be provided.

図5~11は、本発明の一実施形態における、音声記録管理のためのユーザインタフェース画面の例を示した図である。 5-11 show examples of user interface screens for voice recording management in one embodiment of the present invention.

図5~11は、クライアント上にインストールされた専用アプリケーションやコンピュータ装置200と関連するウェブ/モバイルサイト上のインタフェース画面であって、音声記録管理画面500の例を示している。 5-11 show an example of a voice recording management screen 500, which is an interface screen on a web/mobile site associated with a dedicated application installed on a client or computing device 200. FIG.

図5~9は、音声記録を生成する過程を説明するための音声記録管理画面500の例を示している。 5-9 show an example of an audio recording management screen 500 for explaining the process of creating an audio recording.

図5を参照すると、音声記録管理画面500は、音声記録管理サービスのホーム画面構成であって、サービス提供のための主要メニューリストが含まれてよく、一例として、音声記録をフォルダ単位で管理するためのフォルダリスト501が含まれてよい。また、音声記録管理画面500には、新たな音声記録を生成するための「新規ノート作成」メニュー502が含まれてよい。 Referring to FIG. 5, the voice recording management screen 500 is a home screen configuration of the voice recording management service, and may include a main menu list for providing the service. may include a folder list 501 for The audio recording management screen 500 may also include a "create new note" menu 502 for creating a new audio recording.

プロセッサ220は、音声記録管理画面500から「新規ノート作成」メニュー502が選択される場合、図6に示すように、音声記録生成画面610を提供してよい。音声記録生成画面610には、音声記録のタイトルを入力するための「タイトル」入力欄611、参加者情報を入力するための「参加者」入力欄612、音声録音のための「録音開始」メニュー613、音声ファイルをアップロードするための「ファイルアップロード」メニュー614などが含まれてよい。言い換えれば、プロセッサ220は、音声記録を生成するために、録音機能とファイルアップロード機能を提供してよい。 Processor 220 may provide voice recording generation screen 610, as shown in FIG. Audio recording generation screen 610 includes a "title" input field 611 for entering the title of the audio recording, a "participant" input field 612 for entering participant information, and a "start recording" menu for audio recording. 613, a "file upload" menu 614 for uploading audio files, and the like. In other words, processor 220 may provide recording functionality and file upload functionality for generating audio recordings.

プロセッサ220は、音声記録生成画面610から「録音開始」メニュー613が選択される場合、図7に示すように、音声録音画面720を提供してよい。音声録音画面720は、基本的な録音インタフェースであって、録音が実行された時間情報、録音を一時停止するための一時停止ボタン、録音を終了するための終了ボタンなどが含まれてよい。 Processor 220 may provide voice recording screen 720, as shown in FIG. The voice recording screen 720 is a basic recording interface, and may include time information when recording was performed, a pause button for pausing the recording, an end button for ending the recording, and the like.

特に、音声録音画面720には、録音中にメモを作成できるようにするメモインタフェース721と、録音中にブックマークを記録できるようにするブックマークインタフェース722が含まれてよい。このとき、メモインタフェース721には、テキストによる入力はもちろん、写真や動画撮影機能、ファイル添付機能などが含まれてよい。ユーザは、メモインタフェース721を利用することにより、録音中に該当の音声と関連する重要な内容や添付する内容などをメモとして作成することができ、メモの他にも、ブックマークインタフェース722を利用することにより、重要区間の録音時点にブックマークを記録することができる。録音実行時間を基準として録音中に入力されたメモやブックマークが記録されてよく、例えば、メモの作成が始まった時点の録音実行時間がメモ作成時間として記録されてよく、ブックマークが入力された時点の録音実行時間がブックマーク指定時間として記録されてよい。 In particular, voice recording screen 720 may include a notes interface 721 that allows notes to be made while recording, and a bookmark interface 722 that allows bookmarks to be recorded while recording. At this time, the memo interface 721 may include not only a text input function, but also a photograph and video shooting function, a file attachment function, and the like. By using the memo interface 721, the user can create a memo of important contents related to the corresponding voice or contents to be attached during recording as a memo. Thus, a bookmark can be recorded at the recording point of the important section. Memos and bookmarks input during recording may be recorded based on the recording execution time. For example, the recording execution time at the time when the creation of the memo started may be recorded as the memo creation time, and the time when the bookmark was input. may be recorded as the bookmark designated time.

音声記録に対するブックマークとしては、ブックマークインタフェース722を利用した手動設定を説明しているが、これに限定されてはならず、自動設定機能による実現も可能である。例えば、事前に定められた主要キーワード(一例として、音声記録のタイトルやタグなど)が発声される区間にブックマークが自動で記録されるようにしてよい。 Manual setting using the bookmark interface 722 has been described as a bookmark for an audio recording, but it is not limited to this, and realization by an automatic setting function is also possible. For example, a bookmark may be automatically recorded in a section in which a predetermined main keyword (for example, the title or tag of an audio recording) is uttered.

プロセッサ220は、音声記録生成画面610から「ファイルアップロード」メニュー614が選択される場合、クライアントが音声ファイルを探索できるようにするためのファイル探索画面を提供し、ファイル選択画面から特定のファイルが選択されれば、図8に示すように、選択されたファイルをアップロードするファイルアップロード画面830を提供してよい。ファイルアップロード画面830には、選択されたファイルに関する情報(例えば、ファイル名、ファイルの長さなど)とともに、ファイルアップロードの進行状況を示すプログレスバー831が含まれてよい。 Processor 220 provides a file search screen to allow the client to search for an audio file when the "file upload" menu 614 is selected from the audio record generation screen 610, and a particular file is selected from the file selection screen. If so, as shown in FIG. 8, a file upload screen 830 may be provided for uploading the selected files. File upload screen 830 may include information about the selected file (eg, file name, file length, etc.) as well as a progress bar 831 that indicates the progress of the file upload.

プロセッサ220は、音声録音画面720による音声録音が完了するか、ファイルアップロード画面830によるファイルアップロードが完了すれば、図9に示すように、音声をテキストに変換する音声記録生成過程の進行状況915を音声記録生成画面610に表示してよい。録音の場合は、録音と同時進行で音声ファイルがリアルタイムでアップロードされるか、あるいは録音の完了にともなって録音された音声ファイル全体が一括でアップロードされてよい。 The processor 220 displays the progress 915 of the voice-to-text generation process of converting voice to text as shown in FIG. It may be displayed on the voice recording generation screen 610 . In the case of recording, the audio file may be uploaded in real time while recording is in progress, or the entire recorded audio file may be uploaded at once upon completion of the recording.

プロセッサ220は、音声記録生成過程が完了した音声ファイルに対し、音声記録とメモ(および、ブックマーク)を時間的にマッチングしてともに提供してよい。 The processor 220 may provide time-matched audio recordings and notes (and bookmarks) together for audio files that have completed the audio recording generation process.

図10~11は、音声記録を提供する過程を説明するための音声記録管理画面500の例を示した図である。 10-11 show an example of a voice recording management screen 500 for explaining the process of providing voice recordings.

プロセッサ220は、音声記録管理画面500に提供されたファイルリストから特定の音声記録が選択される場合、図10に示すように、該当の音声記録に対するビューモードに該当する音声記録詳細画面1000を提供してよい。 When a specific voice record is selected from the file list provided on the voice record management screen 500, the processor 220 provides a voice record detail screen 1000 corresponding to the view mode for the corresponding voice record, as shown in FIG. You can

プロセッサ220は、音声記録詳細画面1000に音声記録領域1040とメモ領域1050を表示してよい。音声記録詳細画面1000には、音声記録生成過程で入力されたタイトル1041と参加者情報1042がともに提供されてよい。 Processor 220 may display audio recording area 1040 and notes area 1050 on audio recording details screen 1000 . A title 1041 and participant information 1042 input during the process of creating a voice recording may be provided together on the voice recording details screen 1000 .

プロセッサ220は、音声記録領域1040とメモ領域1050を、一画面上で区分される個別のタップページとして提供してよい。他の例としては、クライアントデバイスの画面比により、デュアルビュー方式によって音声記録領域1040とメモ領域1050をともに表示してもよい。 The processor 220 may provide the voice recording area 1040 and the memo area 1050 as separate tap pages divided on one screen. As another example, both the voice recording area 1040 and the memo area 1050 may be displayed in a dual-view manner according to the screen ratio of the client device.

音声記録領域1040では、発声区間ごとに、該当の区間の音声を変換したテキストが表示されてよく、このとき、音声ファイルでテキストが発声される時点を基準にタイムスタンプが表示されてよい。メモ領域1050には、音声ファイルの録音中に作成されたメモが表示されてよく、各メモには、メモ作成が始まった時点の録音実行時間が該当のメモのタイムスタンプとして表示されてよい。 In the voice recording area 1040, text obtained by converting the voice of the corresponding segment may be displayed for each utterance segment, and a time stamp may be displayed based on the time when the text is uttered in the voice file. The memo area 1050 may display memos created during the recording of the audio file, and each memo may display the recording execution time when the memo creation began as the time stamp of the memo.

音声記録領域1040とメモ領域1050がデュアルビュー方式によって提供される場合は、音声記録領域1040とメモ領域1050を二列に並べて表示してよい。このとき、音声記録領域1040とメモ領域1050は、タイムスタンプを基準にマッチングさせて表示してよい。例えば、話者1が発声した00分02秒時点に作成されたメモは、該当の発声区間のテキストと同一線上に表示されるようにしてよい。 When the voice recording area 1040 and the memo area 1050 are provided by a dual view method, the voice recording area 1040 and the memo area 1050 may be displayed in two rows. At this time, the voice recording area 1040 and the memo area 1050 may be matched and displayed based on the time stamp. For example, a memo created at 00 minutes and 02 seconds when speaker 1 uttered may be displayed on the same line as the text of the corresponding utterance section.

音声記録領域1040とメモ領域1050が個別のタップページとして提供される場合は、音声記録領域1040とメモ領域1050を、タイムスタンプを基準とした同一線上に表示するのではなく、単にそれぞれの時間順にしたがって整列することも可能である。 When the voice recording area 1040 and the memo area 1050 are provided as separate tap pages, the voice recording area 1040 and the memo area 1050 are simply displayed in chronological order instead of being displayed on the same line based on the time stamp. Therefore, alignment is also possible.

音声記録詳細画面1000には、検索のための「検索」メニュー1001が含まれてよい。プロセッサ220は、音声記録詳細画面1000から「検索」メニュー1001が選択される場合、図11に示すように、該当の音声記録に対する検索画面1160を提供してよい。 Audio recording details screen 1000 may include a "Search" menu 1001 for searching. When the "search" menu 1001 is selected from the audio recording details screen 1000, the processor 220 may provide a search screen 1160 for the corresponding audio recording, as shown in FIG.

検索画面1160には、検索語を入力するための検索語入力欄1161が含まれてよく、プロセッサ220は、音声記録詳細画面1000上の音声記録から検索語に対応する単語と検索語と似た発音の単語とを検索し、この検索結果を表示してよい。 The search screen 1160 may include a search term input field 1161 for entering a search term, and the processor 220 extracts words corresponding to the search term from the voice recording on the voice recording details screen 1000 and words similar to the search term. You may search for pronunciation words and display the search results.

音声をテキストに変換するときに、発音によって互いに異なる単語として認識される場合があり、このような場合には検索に困難が生じる。例えば、2人が同じ単語として「デモサイト」を発話したとしても、ある人の音声では「デモサイト」が正確に認識される反面、他の人の音声では「対面サイト」(韓国語読み:テミョンサイト)と認識されることがある。プロセッサ220は、検索語として「デモサイト」が入力される場合、音声記録から「デモサイト」はもちろん、これと似た発音の単語である「対面サイト」もともに検索結果として提供してよい。 When converting speech to text, words may be recognized as different words depending on their pronunciation, which makes retrieval difficult. For example, even if two people utter the same word ``demo site'', ``demo site'' is accurately recognized in one person's voice, while ``face-to-face site'' (reading in Korean: Daemyung site) may be recognized. When 'demosite' is input as a search term, the processor 220 may provide not only 'demosite' but also a similar-sounding word 'face-to-face site' from the voice recording as a search result.

プロセッサ220は、検索画面1160で、検索語に対する検索結果に含まれた単語をハイライト表示してよい。このとき、検索結果に含まれた単語の正確度により、各単語のハイライト色を異なるように表示してよい。検索結果のうち、検索語と正確に一致する単語には第1色(例えば、青色)ハイライト1162を、検索語とは一致しないが類似する発音の単語には第1色とは異なる第2色(例えば、水色)ハイライト1163を適用して表示してよい。 Processor 220 may highlight words included in search results for the search term in search screen 1160 . At this time, each word may be highlighted in a different color depending on the accuracy of the words included in the search results. Among the search results, words that exactly match the search term are highlighted in a first color (eg, blue), and words that do not match the search term but have similar pronunciations are highlighted in a second color different from the first color. A color (eg, light blue) highlight 1163 may be applied and displayed.

プロセッサ220は、検索結果に対するフィルタリング条件が設定されている場合、例えば、検索語との類似度が90%以上の単語が検索条件として設定された場合、該当の条件を満たす単語だけを検索結果として表示してよい。 If a filtering condition for the search result is set, for example, if a word with a degree of similarity of 90% or more to the search term is set as the search condition, the processor 220 selects only the word that satisfies the condition as the search result. may be displayed.

プロセッサ220は、検索語に対して音声記録領域1040とメモ領域1050をともに検索してもよいし、他の例としては、ユーザの設定にしたがい、音声記録領域1040とメモ領域1050のうちの1つだけを選択的に検索してもよい。 Processor 220 may search both voice recording area 1040 and notes area 1050 for a search term, or alternatively, search one of voice recording area 1040 and notes area 1050 according to user settings. Only one may be selectively retrieved.

プロセッサ220は、検索語に対する検索機能の他にも、検索結果に含まれた単語を検索語に修正する機能をともに提供してよい。検索語「デモサイト」と類似する発音である「対面サイト」を探索した後、「対面サイト」を「デモサイト」に修正してよい。修正機能では、検索された単語を他の単語に修正するときに、検索結果内の単語全体を一度に修正するか、ユーザ選択にしたがって一部の単語だけを選択的に修正するインタフェースを提供してよい。 The processor 220 may provide a search function for search terms as well as a function for correcting words included in search results to search terms. After searching for "face-to-face site" that has a similar pronunciation to the search term "demo site", "face-to-face site" may be corrected to "demo site." The correction function provides an interface for correcting all words in the search results at once or selectively correcting only some words according to the user's selection when correcting the searched word to another word. you can

このように、本発明の実施形態によると、音声をテキストに変換した音声記録から単語を検索するときに、似た発音の単語を含んで検索することにより、音声記録の単語検索の性能を高めることができる。また、本発明の実施形態によると、発音に基づく検索結果に含まれた単語を検索正確度によってフィルタリングする機能、発音に基づく検索結果に含まれた単語を他の単語に修正する機能などを提供することにより、サービスの利用に対するユーザの利便性を高めることができる。 In this way, according to the embodiment of the present invention, when searching for words from voice-to-text voice recordings, words with similar pronunciations are included in the search, thereby improving the performance of word retrieval of voice recordings. be able to. In addition, according to an embodiment of the present invention, a function of filtering words included in the search results based on pronunciation according to search accuracy, a function of correcting words included in the search results based on pronunciation to other words, etc. are provided. By doing so, the user's convenience in using the service can be enhanced.

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。 The apparatus described above may be realized by hardware components, software components, and/or a combination of hardware and software components. For example, the devices and components described in the embodiments include processors, controllers, arithmetic logic units (ALUs), digital signal processors, microcomputers, field programmable gate arrays (FPGAs), programmable logic units (PLUs), microprocessors, Or may be implemented using one or more general purpose or special purpose computers, such as various devices capable of executing and responding to instructions. The processing unit may run an operating system (OS) and one or more software applications that run on the OS. The processor may also access, record, manipulate, process, and generate data in response to executing software. For convenience of understanding, one processing device may be described as being used, but those skilled in the art will appreciate that a processing device may include multiple processing elements and/or multiple types of processing elements. You can understand that. For example, a processing unit may include multiple processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。 Software may include computer programs, code, instructions, or a combination of one or more of these, to configure a processor to operate at its discretion or to independently or collectively instruct a processor. You can Software and/or data may be embodied in any kind of machine, component, physical device, computer storage medium, or device for interpretation by, or for providing instructions or data to, a processing device. good. The software may be stored and executed in a distributed fashion over computer systems linked by a network. Software and data may be recorded on one or more computer-readable recording media.

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。 The method according to the embodiments may be embodied in the form of program instructions executable by various computer means and recorded on a computer-readable medium. Here, the medium may record the computer-executable program continuously or temporarily record it for execution or download. In addition, the medium may be various recording means or storage means in the form of a combination of single or multiple hardware, and is not limited to a medium that is directly connected to a computer system, but is distributed over a network. It may exist in Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, and ROM, RAM, flash memory, etc., and may be configured to store program instructions. Other examples of media include recording media or storage media managed by application stores that distribute applications, sites that supply or distribute various software, and servers.

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。 As described above, the embodiments have been described based on the limited embodiments and drawings, but those skilled in the art will be able to make various modifications and variations based on the above description. For example, the techniques described may be performed in a different order than in the manner described and/or components such as systems, structures, devices, circuits, etc. described may be performed in a manner different from the manner described. Appropriate results may be achieved when combined or combined, opposed or substituted by other elements or equivalents.

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。 Accordingly, different embodiments that are equivalent to the claims should still fall within the scope of the appended claims.

220:プロセッサ
310:音声記録管理部
320:音声記録検索部
330:音声記録修正部
220: Processor 310: Voice Record Manager 320: Voice Record Retrieval Unit 330: Voice Record Modifier

Claims (20)

コンピュータ装置が実行する音声記録検索方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
前記音声記録検索方法は、
前記少なくとも1つのプロセッサにより、音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索し、検索結果を表示する段階
を含み、前記検索する段階は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索し、前記類似単語が前記検索語に修正された検索結果を表示すること
を特徴とする、音声記録検索方法。
An audio recording retrieval method performed by a computer device, comprising:
The computing device includes at least one processor configured to execute computer readable instructions contained in memory;
The voice recording retrieval method comprises:
retrieving words corresponding to a search term from an audio recording generated by converting speech to text by the at least one processor , and displaying search results , wherein the retrieving is performed from the audio recording. A voice record retrieval method , comprising: performing retrieval including similar words that are words having a similar pronunciation to the retrieval word, and displaying retrieval results in which the similar words are modified to the retrieval word .
前記検索する段階は、
単語が分離される単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項1に記載の音声記録検索方法。
The searching step includes:
2. The speech record retrieval according to claim 1, wherein a word having a degree of similarity equal to or greater than a certain percentage with the retrieval word is retrieved as the similar word by comparing words based on a unit in which words are separated. Method.
前記検索する段階は、
字素単位、語幹単位、ターム単位のうちの少なくとも1つの単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項1に記載の音声記録検索方法。
The searching step includes:
retrieving words having a degree of similarity equal to or higher than a certain percentage with the search word as the similar words by comparing words based on at least one of units of letter units, stem units, and term units. A method for retrieving voice recordings according to claim 1.
前記音声記録検索方法は、
前記少なくとも1つのプロセッサにより、検索結果に含まれた少なくとも1つの単語を他の単語に修正する段階
をさらに含む、請求項1に記載の音声記録検索方法。
The voice recording retrieval method comprises:
2. The method of claim 1, further comprising: modifying, by the at least one processor, at least one word included in search results to another word.
前記修正する段階は、
前記検索結果に含まれた単語全体を一度に修正する機能または前記検索結果に含まれた単語の一部を選択して修正する機能を利用して、前記他の単語に修正すること
を特徴とする、請求項4に記載の音声記録検索方法。
The modifying step includes:
using a function of correcting all words included in the search results at once or a function of selecting and correcting a part of the words included in the search results to correct the other words. 5. The voice recording retrieval method of claim 4, wherein:
前記検索する段階は、
検索結果に含まれた単語のディスプレイ要素を前記検索語との類似度によって異なるように表示する段階
を含む、請求項1に記載の音声記録検索方法。
The searching step includes:
2. The method of claim 1, further comprising: displaying display elements of words included in search results differently according to similarity to the search word.
前記検索する段階は、
前記検索語との類似度に基づき、検索結果に含まれた単語をフィルタリングする段階
を含む、請求項1に記載の音声記録検索方法。
The searching step includes:
2. The method of claim 1, comprising filtering words included in search results based on similarity to the search term.
前記音声記録は,前記音声の録音中または再生中に作成されたメモとマッチングされて管理され、
前記検索する段階は、
前記音声記録と前記メモを検索範囲として前記類似単語を検索すること
を特徴とする、請求項1に記載の音声記録検索方法。
the voice recording is managed by matching notes made during recording or playback of the voice;
The searching step includes:
2. The voice recording retrieval method according to claim 1, wherein said similar words are retrieved using said voice recording and said memo as a retrieval range.
前記音声記録検索方法は、
前記少なくとも1つのプロセッサにより、前記音声記録を前記音声の録音中または再生中に作成されたメモと連係させて提供する段階
をさらに含む、請求項1に記載の音声記録検索方法。
The voice recording retrieval method comprises:
2. The method of claim 1, further comprising: providing, by the at least one processor, the audio recording in conjunction with notes made during recording or playback of the audio.
前記提供する段階は、
デュアルビュー方式によって前記音声記録と前記メモをともに表示する段階
を含む、請求項9に記載の音声記録検索方法。
The providing step includes:
10. The audio recording retrieval method of claim 9, comprising displaying both the audio recording and the note in a dual-view manner.
請求項1~10のうちのいずれか一項に記載の音声記録検索方法をコンピュータに実行させるためのコンピュータプログラム。 A computer program for causing a computer to execute the voice recording retrieval method according to any one of claims 1 to 10. コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
音声をテキストに変換することによって生成された音声記録から検索語に対応する単語を検索し、検索結果を表示する音声記録検索部
を含み、前記音声記録検索部は、前記音声記録から前記検索語と似た発音の単語である類似単語を含んで検索し、前記類似単語が前記検索語に修正された検索結果を表示すること
を特徴とする、コンピュータ装置。
A computer device,
at least one processor configured to execute computer readable instructions contained in memory;
The at least one processor
an audio recording retrieval unit for retrieving words corresponding to a search term from an audio recording generated by converting speech to text , and displaying search results , wherein the audio recording retrieval unit retrieves the search term from the audio recording. searching including a similar word that is a word with a similar pronunciation to and displaying a search result in which the similar word is corrected to the search word .
前記音声記録検索部は、
単語が分離される単位を利用した単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項12に記載のコンピュータ装置。
The voice recording search unit
13. The computer apparatus according to claim 12, wherein a word having a degree of similarity equal to or higher than a certain percentage with the search word is retrieved as the similar word by comparing words using units in which words are separated. .
前記音声記録検索部は、
字素単位、語幹単位、ターム単位のうちの少なくとも1つの単位に基づく単語間の比較により、前記検索語と一定の割合以上の類似度をもつ単語を前記類似単語として検索すること
を特徴とする、請求項12に記載のコンピュータ装置。
The voice recording search unit
retrieving words having a degree of similarity equal to or higher than a certain percentage with the search word as the similar words by comparing words based on at least one of units of letter units, stem units, and term units. 13. The computer apparatus of claim 12.
前記少なくとも1つのプロセッサは、
検索結果に含まれた少なくとも1つの単語を他の単語に修正する音声記録修正部
をさらに含む、請求項12に記載のコンピュータ装置。
The at least one processor
13. The computing device of claim 12, further comprising: a voice recording modifier for modifying at least one word included in the search results to another word.
前記音声記録修正部は、
前記検索結果に含まれた単語全体を一度に修正する機能または前記検索結果に含まれた単語の一部を選択して修正する機能を利用して、前記他の単語に修正すること
を特徴とする、請求項15に記載のコンピュータ装置。
The voice recording correction unit
using a function of correcting all words included in the search results at once or a function of selecting and correcting a part of the words included in the search results to correct the other words. 16. The computer device of claim 15, wherein:
前記音声記録検索部は、
検索結果に含まれた単語のディスプレイ要素を前記検索語との類似度によって異なるように表示すること
を特徴とする、請求項12に記載のコンピュータ装置。
The voice recording search unit
13. The computer apparatus of claim 12, wherein display elements of words included in search results are displayed differently according to similarity to the search word.
前記音声記録検索部は、
前記検索語との類似度に基づき、検索結果に含まれた単語をフィルタリングすること
を特徴とする、請求項12に記載のコンピュータ装置。
The voice recording search unit
13. The computer apparatus according to claim 12, wherein words included in search results are filtered based on similarity to said search term.
前記音声記録は、前記音声の録音中または再生中に作成されたメモとマッチングされて管理され、
前記音声記録検索部は、
前記音声記録と前記メモを検索範囲として前記類似単語を検索すること
を特徴とする、請求項12に記載のコンピュータ装置。
the voice recording is managed by matching notes made during recording or playback of the voice;
The voice recording search unit
13. The computer apparatus according to claim 12, wherein the similar word is searched using the voice recording and the memo as a search range.
前記少なくとも1つのプロセッサは、
前記音声記録を前記音声の録音中または再生中に作成されたメモと連係させて提供する音声記録管理部
をさらに含み、
前記音声記録管理部は、
デュアルビュー方式によって前記音声記録と前記メモをともに提供すること
を特徴とする、請求項12に記載のコンピュータ装置。
The at least one processor
an audio recording manager that provides the audio recording in conjunction with notes made during recording or playback of the audio;
The voice recording management unit
13. The computer device of claim 12, wherein the audio recording and the notes are provided together in a dual-view manner.
JP2021018726A 2020-09-29 2021-02-09 Voice recording retrieval method, computer device and computer program Active JP7183316B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0127519 2020-09-29
KR1020200127519A KR102503586B1 (en) 2020-09-29 2020-09-29 Method, system, and computer readable record medium to search for words with similar pronunciation in speech-to-text records

Publications (2)

Publication Number Publication Date
JP2022056307A JP2022056307A (en) 2022-04-08
JP7183316B2 true JP7183316B2 (en) 2022-12-05

Family

ID=80998774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021018726A Active JP7183316B2 (en) 2020-09-29 2021-02-09 Voice recording retrieval method, computer device and computer program

Country Status (2)

Country Link
JP (1) JP7183316B2 (en)
KR (2) KR102503586B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013092912A (en) 2011-10-26 2013-05-16 Sony Corp Information processing device, information processing method, and program
US20180068657A1 (en) 2016-09-07 2018-03-08 Microsoft Technology Licensing, Llc. Ambiguity Resolving Conversational Understanding System

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5311348B2 (en) * 2009-09-03 2013-10-09 株式会社eVOICE Speech keyword collation system in speech data, method thereof, and speech keyword collation program in speech data
CN102375810B (en) * 2010-08-04 2014-03-19 阿里巴巴集团控股有限公司 Estimation value feedback method and server for entire account search keywords
JP5669707B2 (en) * 2011-09-30 2015-02-12 Kddi株式会社 Similar document search device
KR102042265B1 (en) * 2012-03-30 2019-11-08 엘지전자 주식회사 Mobile terminal
KR20150024188A (en) * 2013-08-26 2015-03-06 삼성전자주식회사 A method for modifiying text data corresponding to voice data and an electronic device therefor
KR102144345B1 (en) * 2018-09-12 2020-08-13 주식회사 한글과컴퓨터 Voice recognition processing device for performing a correction process of the voice recognition result based on the user-defined words and operating method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013092912A (en) 2011-10-26 2013-05-16 Sony Corp Information processing device, information processing method, and program
US20180068657A1 (en) 2016-09-07 2018-03-08 Microsoft Technology Licensing, Llc. Ambiguity Resolving Conversational Understanding System

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
セルコ ジョー,プログラマのためのSQL 第4版,第1版,日本,株式会社翔泳社,2013年07月05日,pp. 249--256
山田井 ユウキ,iPhone 10周年記念企画 PART 2 2016-2017からiPhoneアプリを厳選! 使える!新定番アプリ あなたのiPhoneライフを彩る秀逸作品が勢揃い,Mac Fan,日本,株式会社マイナビ出版,2017年11月01日,第25巻 第11号 通巻417号,p. 133
岡田 充弘,結果もスピードも手に入る 神速スマホ仕事術 ,第1版,日本,株式会社すばる舎,2019年08月17日,pp. 88--89

Also Published As

Publication number Publication date
JP2022056307A (en) 2022-04-08
KR102677498B1 (en) 2024-06-24
KR20220043753A (en) 2022-04-05
KR20230034246A (en) 2023-03-09
KR102503586B1 (en) 2023-02-24

Similar Documents

Publication Publication Date Title
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
CN113392239B (en) Virtual assistant for media playback
US8620667B2 (en) Flexible speech-activated command and control
US8719027B2 (en) Name synthesis
TWI807428B (en) Method, system, and computer readable record medium to manage together text conversion record and memo for audio file
US8027999B2 (en) Systems, methods and computer program products for indexing, searching and visualizing media content
KR20140047633A (en) Speech recognition repair using contextual information
US20110119590A1 (en) System and method for providing a speech controlled personal electronic book system
US20200403816A1 (en) Utilizing volume-based speaker attribution to associate meeting attendees with digital meeting content
WO2023029984A1 (en) Video generation method and apparatus, terminal, server, and storage medium
US10909999B2 (en) Music selections for personal media compositions
US11783819B2 (en) Automated context-specific speech-to-text transcriptions
JP7254842B2 (en) A method, system, and computer-readable recording medium for creating notes for audio files through interaction between an app and a website
JP7183316B2 (en) Voice recording retrieval method, computer device and computer program
KR102437752B1 (en) Method, system, and computer readable record medium to manage audio recording in connection with artificial intelligence device
US20230153061A1 (en) Hierarchical Context Specific Actions from Ambient Speech
JP7166370B2 (en) Methods, systems, and computer readable recording media for improving speech recognition rates for audio recordings
JP7166373B2 (en) METHOD, SYSTEM, AND COMPUTER-READABLE RECORDING MEDIUM FOR MANAGING TEXT TRANSFORMATION RECORD AND MEMO TO VOICE FILE
JP2022139053A (en) Retrieval support server, retrieval support method, and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210209

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221122

R150 Certificate of patent or registration of utility model

Ref document number: 7183316

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350